#341
summarized by : Shuhei M. Yoshida
Classification-Then-Grounding: Reformulating Video Scene Graphs As Temporal Bipartite Graphs

どんな論文か?

動画からのシーングラフ生成(VidSGG)に関する論文。従来のVidSGGでは、検知された主体・客体のペア(proposal)に対して、それらの間を結ぶシーングラフのエッジ=述語の種類を分類する、proposal-basedと呼ばれる方式であった。Proposal-basedな手法が持つ制限を解消することが本研究の目的。
placeholder

新規性

Proposal-basedに代わる新たなVidSGGの方式、classification-then-groundingを提案。提案法では、シーングラフを物体のノードと述語のノードからなる二部グラフとして表現する。検知されたtrackletと接続する述語ノードを選択、分類し(classification stage)、その述語が現れる時間区間を予測する(grounding stage)。

結果

VidSGGの標準的なベンチマークであるVidVRD, VidORで評価。提案法の有効性を確認した。

その他(なぜ通ったか?等)