#148
summarized by : Shintaro Yamamoto
VirTex: Learning Visual Representations From Textual Annotations

どんな論文か?

画像認識における事前学習に関する研究.ImageNetのようにラベルを予測する分類問題ではなく,言語情報を事前学習の教師として利用する.具体的には,事前学習タスクとして画像キャプショニングを学習することを提案した.
placeholder

新規性

画像分類タスクで扱う正解ラベルはスパースであるのに対して,キャプションを取り扱うことで1枚の画像により詳しい情報を考えることができる.そのため,画像分類と比べて少ない学習データで事前学習を行うことが可能となる.

結果

学習データの数がImageNetと比べて1/10であっても同等の性能が出せることを確認した.実験はPASCAL VOCやImageNet-1kのような分類タスクだけでなく,instance segmentationやobject detectionに関しても行われている.

その他(なぜ通ったか?等)

やっていること自体はシンプルであるが手法の強みが明確であり,実験も充実しているので分かりやすい. github: https://github.com/kdexd/virtex