Multi-Modal Relational Graph for Cross-Modal Video Moment Retrieval

#745

summarized by : QIU YUE

Yawen Zeng, Da Cao, Xiaochi Wei, Meng Liu, Zhou Zhao, Zheng Qin

どんな論文か？

Cross-modal video moment retrievalタスクのための新たな手法を提案．このタスクはテキスト情報からビデオからそのテキストと対応付けたビデオのRetrievalを行う．このタスクでは、Fine-grainedなビデオとテキストの理解が必要であり、、この論文でグラフベースなビデオとテキストのFine-grained認識を行う．既存の2つのデータセットでSOTAを達成。

新規性

手法的新規性がメイン．Cross-modal video moment retrievalタスクのためのGraphベースな手法を提案し、VideoクリップのGraphとテキストのGraphをそれぞれ生成し、GraphベースなAlignmentを行う．提案手法によりFine-grainedでビデオとテキストのAlignmentができる．既存手法においても優位性を示した．

結果

2つの既存データセット（Daily activitiesとCooking activitiesのデータセット）においてSoTAを達成。

その他（なぜ通ったか？等）

このページで利用されている画像は論文から引用しています．