#753
summarized by : Yue Qiu
Beyond Short-Term Snippet: Video Relation Detection With Spatio-Temporal Global Context

どんな論文か?

従来のVideo visual relation検出手法はビデオSegmentに対して物体、物体関係を検出、次に各Segmentのデータを融合し関係推定を行う.①長いSpanを持った関係を推定しにくい;②Segmentごとに関係推定が非効率的.提案手法はSliding-windowを持った構造で同時にShortとLong span関係を検出できるようにし、Graph NNで更に関係をリファイン.
placeholder

新規性

① ShortとLong-term関係を推定できる sliding-window schemeを提案.②3-stagesビデオ視覚関係推定手法の提案:Stage-1でsliding-windows構造によりobject tracklet proposalsを生成;Stage-2でspatio GCNとTemporal GCNによりProposalsの特徴をリファイン;Stage-3で関係の推定する

結果

従来広く使われている2つのデータセットImageNet-VidVRDとVidORで複数のタスクにおいてSOTAを達成;ImageNet-VidVRDではすべてのMetrics平均的に従来のSOTAと比べ3%向上できた.

その他(なぜ通ったか?等)

従来手法よりもっとSpanが長いObject間の関係をRepresentしやすくした.と同時に、処理のコストは増えない.