#745
summarized by : QIU YUE
Multi-Modal Relational Graph for Cross-Modal Video Moment Retrieval

どんな論文か?

Cross-modal video moment retrievalタスクのための新たな手法を提案.このタスクはテキスト情報からビデオからそのテキストと対応付けたビデオのRetrievalを行う.このタスクでは、Fine-grainedなビデオとテキストの理解が必要であり、、この論文でグラフベースなビデオとテキストのFine-grained認識を行う.既存の2つのデータセットでSOTAを達成。
placeholder

新規性

手法的新規性がメイン.Cross-modal video moment retrievalタスクのためのGraphベースな手法を提案し、VideoクリップのGraphとテキストのGraphをそれぞれ生成し、GraphベースなAlignmentを行う.提案手法によりFine-grainedでビデオとテキストのAlignmentができる.既存手法においても優位性を示した.

結果

2つの既存データセット(Daily activitiesとCooking activitiesのデータセット)においてSoTAを達成。

その他(なぜ通ったか?等)