#155
summarized by : SY
Env-QA: A Video Question Answering Benchmark for Comprehensive Understanding of Dynamic Environments

どんな論文か?

エージェントと物体がインタラクション可能なembodied環境におけるquestion answeringの研究.エージェントの視点から撮影された動画を入力とするvideo question answeringを扱う.
placeholder

新規性

AI2-THORを用いたシミュレーションベースのデータセットを作成.質問と回答はテンプレートベースで作成をしたものをアノテータが修正をしていく. また,ベースライン手法としてTSEAを提案.イベントレベルの特徴抽出,時間方向のアテンション,回答の予測の3つのモジュールから構成されている.

結果

提案手法であるTSEAとベースライン手法を比較し,TSEAが最高性能を達成した.

その他(なぜ通ったか?等)