summarized by : Shintaro Yamamoto
Jonghwan Mun, Minsu Cho, Bohyung Han
テキストと動画間の時間方向のgrounding手法を提案。従来手法の多くが候補となるセグメントの中から適したものを選択するのに対し、回帰タスクとして扱うことで対応する時間を出力する。
クエリとなるテキストのsemanticフレーズと動画の画像特徴間で、localな対応付けとglobalな対応付けを行うモデルを構築。
Charades-STAとActivityNetの2つのデータセットで実験を行い、SOTAを更新。