#348
summarized by : Shintaro Yamamoto
Modality Shifting Attention Network for Multi-Modal Video Question Answering

どんな論文か?

動画とその字幕から質問に答えるmulti-modal video question answering (MVQA)の手法を提案。MVQAでは、動画中のどの時間帯に質問に対する回答が含まれているかをlocalizationする必要がある。
placeholder

新規性

Modality Shifting Attention Network (MSAN)を提案。MSANは、(1)質問に対する回答が含まれている時間帯のlocalization、(2)localization結果に基づいて質問に回答するモジュールの2つより構築されている。

結果

TVQAデータセットで実験を行い、SOTAを更新。特に時間に関する質問(When ~ ?)では高い精度(89%)を達成。

その他(なぜ通ったか?等)