Bridge To Answer: Structure-Aware Graph Interaction Network for Video Question Answering

#311

summarized by : QIU YUE

Jungin Park, Jiyoung Lee, Kwanghoon Sohn

どんな論文か？

Video Question Answeringの新たなGraphベースな手法の提案。VideoQAタスクにおいて、ビデオのグローバル特徴、画像内部の細かい物体領域、質問の単語などの間に密な関係性がある。以上のすべての特徴をGraph構造に関連付ける手法を提案し、質問に応じてグローバルなビデオ特徴、局所画像特徴をFlexibleで利用し回答できる。既存データセットでSoTAを達成。

新規性

手法的新規性がメイン。全体的なモデルがGraphベースで、具体的にいくつか細かいグラフから構成する。①Question conditioned visual graphにより質問と視覚情報の関係性を学習。②Visual-to-visual graphによりビデオでのモーション特徴と画像のAppearance特徴を関連付ける。

結果

提案のモデルが複数のVideoQAベンチマーク（TGIF-QA、MSVD-QA、MSRVTT-QA）などでSoTAを達成。

その他（なぜ通ったか？等）

このページで利用されている画像は論文から引用しています．