#52
summarized by : Keisuke Kamahori
Learning Visual Representations with Caption Annotations

どんな論文か?

画像の表現を少ないデータから学習するため、比較的容易に入手できる画像のキャプションを利用することを試みた。 また表現学習の proxy task として、一部がマスクされたキャプションを画像・文章の両方から推測する ICMLM を提案した。
placeholder

新規性

画像の表現学習にキャプションを利用した。

結果

画像キャプションを利用することで、少量のデータのみを用いる手法でも巨大なデータセットを利用する SOTA 手法に匹敵する性能を達成できた。

その他(なぜ通ったか?等)

https://europe.naverlabs.com/research/computer-vision-research-naver-labs-europe/icmlm/