- …
- …
#17 #emnlp2019
summarized by : Yuta Nakamura
概要
Vision-and-language reasoningのためのBERT-likeなモデルを提案した論文.
言語と画像オブジェクトの情報をそれぞれエンコードし, それぞれlanguage encoder, object relationship encoderという2つのTransformerに通した後, 出力をcross-modality encoderという3つ目のTransformerに通して出力を得る.
事前学習のタスクには, (1)Masked LM, (2)Masked object prediction, (3)Cross modality matching, (4)Image QAを用いた.
新規性
これまでのvision-and-language taskに用いられたbi-directional attention, transformer, BUTD(bottom-up and top-down attention)を統合して汎用的なモデルにまとめたこと.
結果
質問応答タスクであるVQA, GQAに対してSOTAを更新したほか, 他のvision-and-language reasoning taskであるNLVRでもSOTAを20ポイント以上更新した.
これらは, 本論文の投稿以降に提案された類似モデル (ViLBERT, Visual-BERT) よりも優れている.
- …
- …