An Empirical Study of Training End-to-End Vision-and-Language Transformers

#457

summarized by : QIUYUE

Zi-Yi Dou; Yichong Xu; Zhe Gan; Jianfeng Wang; Shuohang Wang; Lijuan Wang; Chenguang Zhu; Pengchuan Zhang; Lu Yuan; Nanyun Peng; Zicheng Liu; Michael Zeng

どんな論文か？

Full TransformerのVandLモデルが様々なタスクで良い性能を示した。しかし、上記のモデルが下流タスクで性能が著しく劣る問題が存在。Full TransformerのVandLの構造に関しての網羅的なサーベイと構造の調整、評価実験を行った。具体的に、Vision エンコーダ、テキストエンコーダ、マルチモーダル Fusion、モデルデザイン、事前学習のロスなどを検証。

新規性

VandLのFull Transformer構造の網羅的な実験を行い、VandL分野のモデル構築における色々良い知見を得られた。例えば、モデル構造にビジョン Transformerが言語 Transformerより高い性能を得るのに重要である。Cross-attention構造で下流タスクでの性能を向上できる。EncoderのみがEncoder-Decoder構造より性能が高い場合がある。

結果

大規模な実験を行った上、最も良い設定では、４Mの画像で事前学習しVQAv2データセットで77.64パーセントというSOTAな精度を実現した。また、事前学習データの規模を拡張して、最も良いモデルは80.54パーセントの高い精度を得られた（VQAv2ではHuman精度は80パーセントだったような気がするので、この80.54の結果が相当高い）。

その他（なぜ通ったか？等）

End-to-End Vision Language Transformerの構造のサーベイと統一されたフォーマットで大規模の実験がVision and Languageの分野において重要な知見を提供できる。ただし、大規模実験するために相当なリソースが必要になる。小さい研究室だとなかなか行いにくい研究かもしれない。

このページで利用されている画像は論文から引用しています．