Fine-Grained Video-Text Retrieval With Hierarchical Graph Reasoning

#522

summarized by : Seito Kasai

Shizhe Chen, Yida Zhao, Qin Jin, Qi Wu

どんな論文か？

Hierarchical Graph Reasoning モデルを提案し、動画・テキスト相互検索をエンティティ間の関係性・大域的なシーンを加味して行う。

新規性

・動画・テキスト相互検索において、イベント、アクション、エンティティの3レベルにわたるマッチングを行う Hierarchical Graph Reasoning (HGR) モデルを提案・MSR-VTT, TGIF, VATEX において従来研究を上回り、別のデータセットに転用して汎用性を検証・新たに提案された、粒度の高い理解が必要となるマッチングタスクにおいても良い精度を出す

結果

R@1 / R@5 / R@10 / Med r / Mean r MSR-VTT T2V: 9.2 / 26.2 / 36.5 / 24 / 164.0 MSR-VTT V2T: 15.0 / 36.7 / 48.8 / 11 / 90.4 TGIF T2V: 4.5 / 12.4 / 17.8 / 160 / - VATEX T2V: 35.1 / 73.5 / 83.5 / 2 / -

その他（なぜ通ったか？等）

・検索精度が非常に高い・誰かがいずれやるであろうことを先にやっている (意味階層の話はあったが、GCNを使用するところまではされていなかった)

このページで利用されている画像は論文から引用しています．