AGQA: A Benchmark for Compositional Spatio-Temporal Reasoning

#520

summarized by : QIU YUE

Madeleine Grunde-McLaughlin, Ranjay Krishna, Maneesh Agrawala

どんな論文か？

Action Genomeデータセットをベースに新たなVideoQAデータセットAGQAを提案。既存のVideoQAデータセットがCompositionalをほとんど考慮していなくて、データセットのバイアスが高いかつアノテーションエラーが含まれている。それに対して、Compositional ビデオデータセットをベースにCompositionalの理解を評価可能にした。

新規性

①データセットの新規性。既存のCompositional Video RecognitionのためのデータセットAction GenomeをベースにVideoQAデータセットとデータセット自動構築プロセスも提案した。VideoQAタスクにおけるCompositional理解を評価可能にした。②提案データセットでの新たな知見を得られた：既存のSoTA手法が実際言語のバイアスを利用した手法と大差なし。

結果

PSAC，HME，HRCNの3つ代表的な手法をAGQAデータセットで性能評価を行った。Human精度が86.02%に対して、SoTA手法HCRNが47.74%の精度を達成し、データセットの言語側バイアスを利用したLinguistic-onlyモデルよりわずかの0.42%の精度しか上がらなかった。

その他（なぜ通ったか？等）

このページで利用されている画像は論文から引用しています．