Classification-Then-Grounding: Reformulating Video Scene Graphs As Temporal Bipartite Graphs

#341

summarized by : Shuhei M. Yoshida

Kaifeng Gao; Long Chen; Yulei Niu; Jian Shao; Jun Xiao

どんな論文か？

動画からのシーングラフ生成（VidSGG）に関する論文。従来のVidSGGでは、検知された主体・客体のペア（proposal）に対して、それらの間を結ぶシーングラフのエッジ＝述語の種類を分類する、proposal-basedと呼ばれる方式であった。Proposal-basedな手法が持つ制限を解消することが本研究の目的。

新規性

Proposal-basedに代わる新たなVidSGGの方式、classification-then-groundingを提案。提案法では、シーングラフを物体のノードと述語のノードからなる二部グラフとして表現する。検知されたtrackletと接続する述語ノードを選択、分類し（classification stage）、その述語が現れる時間区間を予測する（grounding stage）。

結果

VidSGGの標準的なベンチマークであるVidVRD, VidORで評価。提案法の有効性を確認した。

その他（なぜ通ったか？等）

このページで利用されている画像は論文から引用しています．