VirTex: Learning Visual Representations From Textual Annotations

#148

summarized by : Shintaro Yamamoto

Karan Desai, Justin Johnson

画像認識における事前学習に関する研究．ImageNetのようにラベルを予測する分類問題ではなく，言語情報を事前学習の教師として利用する．具体的には，事前学習タスクとして画像キャプショニングを学習することを提案した．

画像分類タスクで扱う正解ラベルはスパースであるのに対して，キャプションを取り扱うことで1枚の画像により詳しい情報を考えることができる．そのため，画像分類と比べて少ない学習データで事前学習を行うことが可能となる．

学習データの数がImageNetと比べて1/10であっても同等の性能が出せることを確認した．実験はPASCAL VOCやImageNet-1kのような分類タスクだけでなく，instance segmentationやobject detectionに関しても行われている．

やっていること自体はシンプルであるが手法の強みが明確であり，実験も充実しているので分かりやすい． github: https://github.com/kdexd/virtex

このページで利用されている画像は論文から引用しています．