Large-scale Pretraining for Visual Dialog: A Simple State-of-the-Art Baseline

#114

summarized by : Yue Qiu

Vishvak Murahari, Dhruv Batra, Devi Parikh, Abhishek Das

どんな論文か？

従来のVisual dialog手法はDialogデータセットだけで学習と評価を行う．この研究で複数のVision-and-languageTargeタスクのデータセットで事前学習を行い，更にそのためにVision-and-languageモデルViLBERTをVisual Dialogタスクに適応した．実験結果により，従来手法と比べ性能向上が得られた．

新規性

①Vision-and-languageモデルViLBERTをVisual Dialogタスクに適応．②複数の従来タスクのデータセット（conceptual captions, VQAなど）で事前学習を行った；③デンスannotated Visual dialogデータセットを使った場合，従来のVisual dialogの評価指標のNDCGとMRRにはTrade-off関係があることを発見した．

結果

①既存のVisual dialog手法よりNDCGとMRRで最大それぞれ1%向上できた；②Dense annotated Visual dialogデータセットで学習した場合のNDCGとMRRのTrade-offが実際AnnotatedデータセットがうまくVisual dialogのデータセットVisDialと一致しないところが原因として発見し，将来この分野の研究に良い知見をもたらした．

その他（なぜ通ったか？等）

①Visual dialogグループのVisual dialogに関する新しい研究；②Dhruv とDevi さんが著者リストに入っている．

このページで利用されている画像は論文から引用しています．