#17
summarized by : Yue Qiu
Behind the Scene: Revealing the Secrets of Pre-trained Vision-and-Language Models

どんな論文か?

最近V&L系ViLBERT,LXMERTとUNITERなどの事前学習系の手法が高い性能を示した.ただし,事前学習モデルが何を学習しているかが解明されていなかった.この研究でValue(Vision And Language Understanding Evaluation)を提案し,複数の方面からV&L事前学習モデルの知識解明を行い、既存のモデルに関して有用な知見を得られた.
placeholder

新規性

Valueモデルが最初のV&L事前学習モデルを知識解明.Valueが五つの方面からモデルを評価:①Multimodal Fusion Degree; ②言語と視覚モデルが最終結果への貢献度;③Visual CoreferencesによりCross-modalのInteraction性;④Image-to-imageのInteraction性;⑤Text-to-TextのInteraction性.

結果

①single-streamモデルで層が深いほどマルチモーダルのFusionができる、two-streamでは逆;②既存のモデルでは結果に視覚情報よりText情報に依存;③Single-streamでは特殊のHeadsによりCross-modalの関係が学習され,Two-streamではモデルのデザインと関連;④既存のモデルは視覚的にも言語的にも実際に豊かな情報を学習できている.

その他(なぜ通ったか?等)

V&L系の事前学習モデルが何を学習したかに関しての網羅的な詳細的な調査を行った.今後ほかのV&Lモデル設計と学習に有意義な文章.