#822
summarized by : Shintaro Yamamoto
Video Object Grounding Using Semantic Roles in Language Description

どんな論文か?

自然言語で指示された領域を動画中より見つけるVideo Object Groundingに関する研究。従来手法では個々の物体を見ているのに対し、物体同士の関係性を見ることで同じクラスの物体が複数映っている場合などに対応する。
placeholder

新規性

文章よりsemantic-rolesを獲得し、入力文に構文が似ているがわずかに異なる(dog→catなど)文をサンプリングする子ことで、学習時に他の物体を参照しなければならないようにする。

結果

ActivityNetを拡張したActivityNet-SRLを構築し、ベースラインを上回ることを確認。

その他(なぜ通ったか?等)