#276
summarized by : Shion Honda
Audio Visual Scene-Aware Dialog

どんな論文か?

短い音声つき動画を元に対話を行うScene-Aware Dialogueというタスクを提案。ベンチマークとして Audio Visual Scene-Aware Dialog Dataset及び、動画を3D-CNN、音声をSpectrogramにしてCNN、対話履歴と質問をLSTMで処理するモデルを公開した。答えは候補からの択一式。
placeholder

新規性

Scene-Aware DialogueはVQAやVisual Dialogueとは異なり、動画と音声を処理しなければならない。時間方向の一貫性や変化に対処する必要がある。 データセットに求められるのは、質問が時間的変化に関するものであること、答えが説明的な文章であること、会話の中で時間的な順序関係にふれること、などである。

結果

候補からのretrievalなので、recall top-kなどで評価した。対話履歴を使うと性能がかなり伸びる。

その他(なぜ通ったか?等)