Video Relationship Reasoning Using Gated Spatio-Temporal Energy Graph

#142

summarized by : Takaya Yamazoe

Yao-Hung Hubert Tsai, Santosh Divvala, Louis-Philippe Morency, Ruslan Salakhutdinov, Ali Farhadi

どんな論文か？

動画から視覚の関連付け(「男、開ける、ドア」は「男」と「ドア」が「開ける」に関連している)を行う論文。視覚の関連付けは画像の意味理解などに非常に有用であるが、既存研究では画像からの関連付けしか行われていない。画像からの関連付けでは例えば、男がドアを「開けている」のか「閉めている」のかが分からない。本研究では、より正確な視覚な関連付けをするために、動画を用いた手法を提案する。

新規性

動画からの視覚の関連付けを、動画の時間的・空間的構造を完全結合した時空間グラフを用いてモデル化することによって実現したこと。このモデルをGated Spatio-Temporal Energy Graphと名付けた。

結果

既存手法(VidVRD, UEG, SEG, STEG)と検出、タグ付け、認識のタスクで性能を比較し、提案手法の優位性を示した。

その他（なぜ通ったか？等）

このページで利用されている画像は論文から引用しています．