#114
summarized by : Yue Qiu
Large-scale Pretraining for Visual Dialog: A Simple State-of-the-Art Baseline

どんな論文か?

従来のVisual dialog手法はDialogデータセットだけで学習と評価を行う.この研究で複数のVision-and-languageTargeタスクのデータセットで事前学習を行い,更にそのためにVision-and-languageモデルViLBERTをVisual Dialogタスクに適応した.実験結果により,従来手法と比べ性能向上が得られた.
placeholder

新規性

①Vision-and-languageモデルViLBERTをVisual Dialogタスクに適応.②複数の従来タスクのデータセット(conceptual captions, VQAなど)で事前学習を行った;③デンスannotated Visual dialogデータセットを使った場合,従来のVisual dialogの評価指標のNDCGとMRRにはTrade-off関係があることを発見した.

結果

①既存のVisual dialog手法よりNDCGとMRRで最大それぞれ1%向上できた;②Dense annotated Visual dialogデータセットで学習した場合のNDCGとMRRのTrade-offが実際AnnotatedデータセットがうまくVisual dialogのデータセットVisDialと一致しないところが原因として発見し,将来この分野の研究に良い知見をもたらした.

その他(なぜ通ったか?等)

①Visual dialogグループのVisual dialogに関する新しい研究;②Dhruv とDevi さんが著者リストに入っている.