Learning Better Visual Dialog Agents With Pretrained Visual-Linguistic Representation

#18

summarized by : Seitaro Shinagawa

Tao Tu, Qing Ping, Govindarajan Thattai, Gokhan Tur, Prem Natarajan

Visual Dialogタスクの一つである、画像のある物体を当てる対話ゲーム課題（GuessWhat?!）において、構成要素となる３つのエージェントOracle、Guesser、QuestionerのモデルをすべてVilBERTベースで置き換えた。

従来ではGuessWhat?!データセットしか使われていなかったが、今回新たにOracle、Guesser、Questionerのモデルを事前学習済みのモデルのViLBERTベースで置き換える方法を提案し、有効性を確認した点

Oracle、Guesser、Questionerのモデルの性能がそれぞれSoTAなモデルから7%、10%、12%向上した。3つともVilBERTベースで組合わせる場合が最も良い。Questionerにおいては何度も同じ質問を繰り返す現象が低減されたと報告された。

アイデアはシンプルでストーリーが非常にわかりやすい。性能向上が著しかったので通ったのではないか / コード: https://github.com/amazon-research/read-up

このページで利用されている画像は論文から引用しています．