Modality Shifting Attention Network for Multi-Modal Video Question Answering

#348

summarized by : Shintaro Yamamoto

Junyeong Kim, Minuk Ma, Trung Pham, Kyungsu Kim, Chang D. Yoo

動画とその字幕から質問に答えるmulti-modal video question answering (MVQA)の手法を提案。MVQAでは、動画中のどの時間帯に質問に対する回答が含まれているかをlocalizationする必要がある。

Modality Shifting Attention Network (MSAN)を提案。MSANは、(1)質問に対する回答が含まれている時間帯のlocalization、(2)localization結果に基づいて質問に回答するモジュールの2つより構築されている。

TVQAデータセットで実験を行い、SOTAを更新。特に時間に関する質問(When ~ ?)では高い精度(89%)を達成。

このページで利用されている画像は論文から引用しています．