Video Graph Transformer for Video Question Answering

#200

summarized by : Shingo Nakazawa

Junbin Xiao; Pan Zhou; Tat-Seng Chua; Shuicheng Yan

どんな論文か？

Video Quetion Answering (VQA) のためのVideo Graph Transformer (VGT) モデルを提案。これまでのモデルは映像コンテンツの認識やシーンレベルの記述に関わる問題にしか対応できず、物体間の時空間的な相互作用、すなわち映像に映る因果関係や時間関係に関する問題にはほとんど回答出来ていなかった。本論文はこれに代表されるいくつかの課題を解決したと報告。

新規性

1. 時空間関係の推論のために、オブジェクトとその関係・ダイナミクスを明示的にモデル化し、ビデオを符号化する動的グラフ変換モジュール (Dynamic Graph Transformer: DGT) を設計。2. 映像とテキストをエンコードする個別のTransformerを準備してタスクに取り組んだ。(映像情報とテキスト情報の統合は、追加のクロスモーダル相互作用モジュールによって行われる)

結果

NExT-QA, TGIF-QAデータセットでSoTAを達成 (MSVTT-QAではSoTAに及ばず)。事前学習なしでも過去のモデルより良い性能を示し、数万件程度でも事前学習すればさらに性能が上がっている。また、マスク言語モデリングを用いてFine-tuningを行うことで汎化率が向上し、NExT-QAテストセットにおいて最高の精度 (55.7％) に到達。

その他（なぜ通ったか？等）

コードはこちらで公開されている → https://github.com/sail-sg/VGT

このページで利用されている画像は論文から引用しています．