Learning To Answer Questions in Dynamic Audio-Visual Scenarios

#468

summarized by : QIUYUE

Guangyao Li; Yake Wei; Yapeng Tian; Chenliang Xu; Ji-Rong Wen; Di Hu

どんな論文か？

音声付きのビデオから、音声・時系列的な情報に関する質問を回答する問題設定はこれまでにあまり検討されてこなかった。音声つきのビデオから、音声やビデオ同時に必要とするような質問を中心とした新たなデータセットを提案。また、音声・Spatio-Temporal情報を同時に扱う新たなTransformerベース手法を提案。

新規性

今までにAudio-Visual Question Answeringデータセットは他にもあったが、比較的に時系列のAudio信号の変化の認識は重要視されてこなかった。ここで、AudioとSpatio-temporal両方必要とするタスク設定と新たなデータセットを提案。また、Audio及びSpatioとTemporalの3つの情報の関係性を学習できる新たなTransformerベースな手法も提案。

結果

提案のデータセットでの実験により、提案のAudio・Spatial・Temporal Transformer構造は音声のみ、ビデオのみ、もしくは音声とビデオ両方使った既存手法より高い精度を達成した。

その他（なぜ通ったか？等）

今の時点で、Audio＋Vision＋Languageの研究は通り安いような気がする。特に、データセットの構築が難しいため、データセットの構築が評価されやすい。

このページで利用されている画像は論文から引用しています．