Knowledge-Based Video Question Answering with Unsupervised Scene Descriptions

#116

summarized by : Keisuke Kamahori

Noa Garcia, Yuta Nakashima

どんな論文か？

動画の内容を理解する時、人はセリフや場面の理解だけでなくプロットに関する知識を利用している。これを応用し、ストーリーに関する Video Question Answering のタスクにおいて、scene-specific な情報に加え文脈情報を用いるモデル ROLL を考案した。

新規性

外部から得たあらすじなどの情報を用いることで、特別なアノテーションつきデータの必要なしに動画のストーリーを理解するモデルを設計した。その中で scene graph を使い教師なしで動画の説明文を生成する手法を提案した。また、modality weighting mechanism によって情報損失なしに複数のモダリティからの情報を統合した。

結果

知識ベースの VQA データセットおよび外部知識を使わない VQA データセットの両方において SOTA を達成した。

その他（なぜ通ったか？等）

このページで利用されている画像は論文から引用しています．