summarized by : Katsuya Shimabukuro
Idan Schwartz, Alexander G. Schwing, Tamir Hazan
音声および映像を元にした質問応答のタスクで、マルチモーダルなアテンションを利用したシンプルなモデルで、既存手法をCIDErで20ポイント上回る手法を提案
アテンションを計算する際に、音声、映像、質問文、すべてをもとに、それぞれのアテンションを計算する。映像はフレーム単位でアテンションを計算する
音声付き映像に対する会話データセットであるAVSDデータセットで既存手法と比較。CIDErで20ポイント、BLEUやROUGEなどその他の評価でも大幅に上回る性能を示した