summarized by : Yuta Nakamura
LXMERT: Learning Cross-Modality Encoder Representations from Transformers

概要

Vision-and-language reasoningのためのBERT-likeなモデルを提案した論文. 言語と画像オブジェクトの情報をそれぞれエンコードし, それぞれlanguage encoder, object relationship encoderという2つのTransformerに通した後, 出力をcross-modality encoderという3つ目のTransformerに通して出力を得る. 事前学習のタスクには, (1)Masked LM, (2)Masked object prediction, (3)Cross modality matching, (4)Image QAを用いた.
placeholder

新規性

これまでのvision-and-language taskに用いられたbi-directional attention, transformer, BUTD(bottom-up and top-down attention)を統合して汎用的なモデルにまとめたこと.

結果

質問応答タスクであるVQA, GQAに対してSOTAを更新したほか, 他のvision-and-language reasoning taskであるNLVRでもSOTAを20ポイント以上更新した. これらは, 本論文の投稿以降に提案された類似モデル (ViLBERT, Visual-BERT) よりも優れている.