#457
summarized by : QIUYUE
An Empirical Study of Training End-to-End Vision-and-Language Transformers

どんな論文か?

Full TransformerのVandLモデルが様々なタスクで良い性能を示した。しかし、上記のモデルが下流タスクで性能が著しく劣る問題が存在。Full TransformerのVandLの構造に関しての網羅的なサーベイと構造の調整、評価実験を行った。具体的に、Vision エンコーダ、テキストエンコーダ、マルチモーダル Fusion、モデルデザイン、事前学習のロスなどを検証。
placeholder

新規性

VandLのFull Transformer構造の網羅的な実験を行い、VandL分野のモデル構築における色々良い知見を得られた。例えば、モデル構造にビジョン Transformerが言語 Transformerより高い性能を得るのに重要である。Cross-attention構造で下流タスクでの性能を向上できる。EncoderのみがEncoder-Decoder構造より性能が高い場合がある。

結果

大規模な実験を行った上、最も良い設定では、4Mの画像で事前学習しVQAv2データセットで77.64パーセントというSOTAな精度を実現した。また、事前学習データの規模を拡張して、最も良いモデルは80.54パーセントの高い精度を得られた(VQAv2ではHuman精度は80パーセントだったような気がするので、この80.54の結果が相当高い)。

その他(なぜ通ったか?等)

End-to-End Vision Language Transformerの構造のサーベイと統一されたフォーマットで大規模の実験がVision and Languageの分野において重要な知見を提供できる。ただし、大規模実験するために相当なリソースが必要になる。小さい研究室だとなかなか行いにくい研究かもしれない。