#522
summarized by : Seito Kasai
Fine-Grained Video-Text Retrieval With Hierarchical Graph Reasoning

どんな論文か?

Hierarchical Graph Reasoning モデルを提案し、動画・テキスト相互検索をエンティティ間の関係性・大域的なシーンを加味して行う。
placeholder

新規性

・動画・テキスト相互検索において、イベント、アクション、エンティティの3レベルにわたるマッチングを行う Hierarchical Graph Reasoning (HGR) モデルを提案 ・MSR-VTT, TGIF, VATEX において従来研究を上回り、別のデータセットに転用して汎用性を検証 ・新たに提案された、粒度の高い理解が必要となるマッチングタスクにおいても良い精度を出す

結果

R@1 / R@5 / R@10 / Med r / Mean r MSR-VTT T2V: 9.2 / 26.2 / 36.5 / 24 / 164.0 MSR-VTT V2T: 15.0 / 36.7 / 48.8 / 11 / 90.4 TGIF T2V: 4.5 / 12.4 / 17.8 / 160 / - VATEX T2V: 35.1 / 73.5 / 83.5 / 2 / -

その他(なぜ通ったか?等)

・検索精度が非常に高い ・誰かがいずれやるであろうことを先にやっている (意味階層の話はあったが、GCNを使用するところまではされていなかった)