NExT-QA: Next Phase of Question-Answering to Explaining Temporal Actions

#302

summarized by : QIU YUE

Junbin Xiao, Xindi Shang, Angela Yao, Tat-Seng Chua

どんな論文か？

新たなVideo Question Answeringデータセットの提案。特にVideo QAモデルのCausal ReasoningとTemporal actionsを理解する能力の評価を重視している。複数の既存のVideo QA手法に対して網羅的評価実験を行った。

新規性

データセットの提案のところが新しい。既存のVideo QAデータセットでは選択肢から一つ回答を選択するようなQAがメイン。それに対して選択肢を選択する質問のほか、回答を生成するOpen-ended Questionsも設定した。また、従来のデータセットと比べ特にCausal ReasoningとTemporal actionsを理解する能力の評価を重視した。

結果

提案のVideo QAデータセットNExT-QAで複数の既存のVideo QAの手法を評価した。Motion 特徴とappearance 特徴両方が質問回答に重要であることを発見し、また、単純にその2種類のFeatureをConcatenateするだけでは足りないことを指摘した。テキスト生成のモデルにおいてBERTが良い性能を示した。既存の手法がOpen-ended質問に弱い傾向。

その他（なぜ通ったか？等）

このページで利用されている画像は論文から引用しています．