#311
summarized by : QIU YUE
Bridge To Answer: Structure-Aware Graph Interaction Network for Video Question Answering

どんな論文か?

Video Question Answeringの新たなGraphベースな手法の提案。VideoQAタスクにおいて、ビデオのグローバル特徴、画像内部の細かい物体領域、質問の単語などの間に密な関係性がある。以上のすべての特徴をGraph構造に関連付ける手法を提案し、質問に応じてグローバルなビデオ特徴、局所画像特徴をFlexibleで利用し回答できる。既存データセットでSoTAを達成。
placeholder

新規性

手法的新規性がメイン。全体的なモデルがGraphベースで、具体的にいくつか細かいグラフから構成する。①Question conditioned visual graphにより質問と視覚情報の関係性を学習。②Visual-to-visual graphによりビデオでのモーション特徴と画像のAppearance特徴を関連付ける。

結果

提案のモデルが複数のVideoQAベンチマーク(TGIF-QA、MSVD-QA、MSRVTT-QA)などでSoTAを達成。

その他(なぜ通ったか?等)