#611
summarized by : Shintaro Yamamoto
Local-Global Video-Text Interactions for Temporal Grounding

どんな論文か?

テキストと動画間の時間方向のgrounding手法を提案。従来手法の多くが候補となるセグメントの中から適したものを選択するのに対し、回帰タスクとして扱うことで対応する時間を出力する。
placeholder

新規性

クエリとなるテキストのsemanticフレーズと動画の画像特徴間で、localな対応付けとglobalな対応付けを行うモデルを構築。

結果

Charades-STAとActivityNetの2つのデータセットで実験を行い、SOTAを更新。

その他(なぜ通ったか?等)