- …
- …
#311
summarized by : QIU YUE
どんな論文か?
Video Question Answeringの新たなGraphベースな手法の提案。VideoQAタスクにおいて、ビデオのグローバル特徴、画像内部の細かい物体領域、質問の単語などの間に密な関係性がある。以上のすべての特徴をGraph構造に関連付ける手法を提案し、質問に応じてグローバルなビデオ特徴、局所画像特徴をFlexibleで利用し回答できる。既存データセットでSoTAを達成。
新規性
手法的新規性がメイン。全体的なモデルがGraphベースで、具体的にいくつか細かいグラフから構成する。①Question conditioned visual graphにより質問と視覚情報の関係性を学習。②Visual-to-visual graphによりビデオでのモーション特徴と画像のAppearance特徴を関連付ける。
結果
提案のモデルが複数のVideoQAベンチマーク(TGIF-QA、MSVD-QA、MSRVTT-QA)などでSoTAを達成。
その他(なぜ通ったか?等)
- …
- …