Compositional Temporal Grounding With Structured Variational Cross-Graph Correspondence Learning

#304

summarized by : Shuhei M. Yoshida

Juncheng Li; Junlin Xie; Long Qian; Linchao Zhu; Siliang Tang; Fei Wu; Yi Yang; Yueting Zhuang; Xin Eric Wang

どんな論文か？

動画から自然言語クエリと意味的にマッチする区間を抽出するtemporal groundingタスクに関する論文。自然言語クエリの特徴は、語彙が限られていても新奇な組み合わせによって意味的な多様性が生じる点にある。本研究の目的は、この組み合わせに起因する多様性に対して汎化させることである。

新規性

Temporal groundingに対しては、「組み合わせへの汎化」を評価するベンチマークが存在しないため、この目的に既存のデータセットを切り直した新たなベンチマーク、Charades-CGとActivityNet-CGを提案。さらに、動画とクエリのそれぞれを階層的なグラフに分解し、両者の対応をとることでクエリとマッチする動画区間を抽出する枠組みVISAを提案。

結果

提案ベンチマークに基づいて、temporal groundingに対する従来のSOTA手法が「組み合わせへの汎化」に失敗することを明らかにした。一方、VISAは「組み合わせへの汎化」性能を大幅に向上させることを明らかにした。

その他（なぜ通ったか？等）

Temporal groundingにおいて解くべき課題を設定しており、それを解くべき理由にも納得感がある。そのためのベンチマークと手法を揃えて提案した完成度の高い発表と感じた。著者リポジトリ：https://github.com/YYJMJC/Compositional-Temporal-Grounding

このページで利用されている画像は論文から引用しています．