#302
summarized by : QIU YUE
NExT-QA: Next Phase of Question-Answering to Explaining Temporal Actions

どんな論文か?

新たなVideo Question Answeringデータセットの提案。特にVideo QAモデルのCausal ReasoningとTemporal actionsを理解する能力の評価を重視している。複数の既存のVideo QA手法に対して網羅的評価実験を行った。
placeholder

新規性

データセットの提案のところが新しい。既存のVideo QAデータセットでは選択肢から一つ回答を選択するようなQAがメイン。それに対して選択肢を選択する質問のほか、回答を生成するOpen-ended Questionsも設定した。また、従来のデータセットと比べ特にCausal ReasoningとTemporal actionsを理解する能力の評価を重視した。

結果

提案のVideo QAデータセットNExT-QAで複数の既存のVideo QAの手法を評価した。Motion 特徴とappearance 特徴両方が質問回答に重要であることを発見し、また、単純にその2種類のFeatureをConcatenateするだけでは足りないことを指摘した。テキスト生成のモデルにおいてBERTが良い性能を示した。既存の手法がOpen-ended質問に弱い傾向。

その他(なぜ通ったか?等)