#699
summarized by : Katsuya Shimabukuro
A Simple Baseline for Audio-Visual Scene-Aware Dialog

どんな論文か?

音声および映像を元にした質問応答のタスクで、マルチモーダルなアテンションを利用したシンプルなモデルで、既存手法をCIDErで20ポイント上回る手法を提案
placeholder

新規性

アテンションを計算する際に、音声、映像、質問文、すべてをもとに、それぞれのアテンションを計算する。映像はフレーム単位でアテンションを計算する

結果

音声付き映像に対する会話データセットであるAVSDデータセットで既存手法と比較。CIDErで20ポイント、BLEUやROUGEなどその他の評価でも大幅に上回る性能を示した

その他(なぜ通ったか?等)