summarized by : Shintaro Yamamoto
Arka Sadhu, Kan Chen, Ram Nevatia
自然言語で指示された領域を動画中より見つけるVideo Object Groundingに関する研究。従来手法では個々の物体を見ているのに対し、物体同士の関係性を見ることで同じクラスの物体が複数映っている場合などに対応する。
文章よりsemantic-rolesを獲得し、入力文に構文が似ているがわずかに異なる(dog→catなど)文をサンプリングする子ことで、学習時に他の物体を参照しなければならないようにする。
ActivityNetを拡張したActivityNet-SRLを構築し、ベースラインを上回ることを確認。