- …
- …
#348
summarized by : Shintaro Yamamoto
どんな論文か?
動画とその字幕から質問に答えるmulti-modal video question answering (MVQA)の手法を提案。MVQAでは、動画中のどの時間帯に質問に対する回答が含まれているかをlocalizationする必要がある。
新規性
Modality Shifting Attention Network (MSAN)を提案。MSANは、(1)質問に対する回答が含まれている時間帯のlocalization、(2)localization結果に基づいて質問に回答するモジュールの2つより構築されている。
結果
TVQAデータセットで実験を行い、SOTAを更新。特に時間に関する質問(When ~ ?)では高い精度(89%)を達成。
その他(なぜ通ったか?等)
- …
- …