#56
summarized by : Yutaka Kawashima
Seeing Out of the Box: End-to-End Pre-Training for Vision-Language Representation Learning

どんな論文か?

従来のVLモデルは画像に対して物体検出を行い、その領域に対して画像特徴と言語特徴を結合するように学習していた。しかしながらこの手法では (i)検出した物体と周りの領域との関係を学習できない (ii)画像特徴が事前に設定した物体検出モデルのクラスに制限される (iii)物体検出モデルがアノテーションの質に左右されるという問題を抱えている。そこで画像全体を入力とするVL事前学習パイプラインを提案した。
placeholder

新規性

SOHOという画像全体を入力とするVL事前学習パイプラインを提案した。Visual Dictionary (VD)という手法を用いることによって従来と異なり物体検出による領域抽出を行う必要がなくなっている。これによってEnd-to-Endでの学習を可能にし、推論時の速度が10倍になり、画像特徴と言語特徴のアラインをより良いものにしている。

結果

SOHOを事前学習に用いてImage-Text Retrieval、Visual Question Answering、Visual Reasoning、Visual Entailmentの4つのVLタスクで検証を行いほとんどの場合で性能向上を確認。

その他(なぜ通ったか?等)

https://github.com/researchmm/soho