#507
summarized by : Seitaro Shinagawa
Where Does It Exist: Spatio-Temporal Video Grounding for Multi-Form Sentences

どんな論文か?

動画に対して、宣言的な文・質問文がどの時刻に対応しているかをアラインメントする新しいタスクを提案し、このタスクに合わせたVidSTGデータセットとグラフベースの手法STGRNを提案。
placeholder

新規性

これまでの動画フレームと文のアラインメントタスクと異なり、文の内容に沿った物体のlocalizationも解くタスクになっている。また、直接物体について言及しない質問文も扱うタスクとなっている点で新しい。

結果

IoUベースの4つの評価指標で、従来手法の組合せ6種類よりも提案手法のグラフベースの手法が上回った。この手法は3つのサブグラフを組み合わせたものになっており、全て使うことで一番良い性能が出ていることが示された。

その他(なぜ通ったか?等)