#18
summarized by : Seitaro Shinagawa
Learning Better Visual Dialog Agents With Pretrained Visual-Linguistic Representation

どんな論文か?

Visual Dialogタスクの一つである、画像のある物体を当てる対話ゲーム課題(GuessWhat?!)において、構成要素となる3つのエージェントOracle、Guesser、QuestionerのモデルをすべてVilBERTベースで置き換えた。
placeholder

新規性

従来ではGuessWhat?!データセットしか使われていなかったが、今回新たにOracle、Guesser、Questionerのモデルを事前学習済みのモデルのViLBERTベースで置き換える方法を提案し、有効性を確認した点

結果

Oracle、Guesser、Questionerのモデルの性能がそれぞれSoTAなモデルから7%、10%、12%向上した。3つともVilBERTベースで組合わせる場合が最も良い。Questionerにおいては何度も同じ質問を繰り返す現象が低減されたと報告された。

その他(なぜ通ったか?等)

アイデアはシンプルでストーリーが非常にわかりやすい。性能向上が著しかったので通ったのではないか / コード: https://github.com/amazon-research/read-up