#520
summarized by : QIU YUE
AGQA: A Benchmark for Compositional Spatio-Temporal Reasoning

どんな論文か?

Action Genomeデータセットをベースに新たなVideoQAデータセットAGQAを提案。既存のVideoQAデータセットがCompositionalをほとんど考慮していなくて、データセットのバイアスが高いかつアノテーションエラーが含まれている。それに対して、Compositional ビデオデータセットをベースにCompositionalの理解を評価可能にした。
placeholder

新規性

①データセットの新規性。既存のCompositional Video RecognitionのためのデータセットAction GenomeをベースにVideoQAデータセットとデータセット自動構築プロセスも提案した。VideoQAタスクにおけるCompositional理解を評価可能にした。②提案データセットでの新たな知見を得られた:既存のSoTA手法が実際言語のバイアスを利用した手法と大差なし。

結果

PSAC,HME,HRCNの3つ代表的な手法をAGQAデータセットで性能評価を行った。Human精度が86.02%に対して、SoTA手法HCRNが47.74%の精度を達成し、データセットの言語側バイアスを利用したLinguistic-onlyモデルよりわずかの0.42%の精度しか上がらなかった。

その他(なぜ通ったか?等)