Beyond Short-Term Snippet: Video Relation Detection With Spatio-Temporal Global Context

#753

summarized by : Yue Qiu

Chenchen Liu, Yang Jin, Kehan Xu, Guoqiang Gong, Yadong Mu

どんな論文か？

従来のVideo visual relation検出手法はビデオSegmentに対して物体、物体関係を検出、次に各Segmentのデータを融合し関係推定を行う．①長いSpanを持った関係を推定しにくい；②Segmentごとに関係推定が非効率的．提案手法はSliding-windowを持った構造で同時にShortとLong span関係を検出できるようにし、Graph NNで更に関係をリファイン．

新規性

① ShortとLong-term関係を推定できる sliding-window schemeを提案．②3-stagesビデオ視覚関係推定手法の提案：Stage-1でsliding-windows構造によりobject tracklet proposalsを生成；Stage-2でspatio GCNとTemporal GCNによりProposalsの特徴をリファイン；Stage-3で関係の推定する

結果

従来広く使われている2つのデータセットImageNet-VidVRDとVidORで複数のタスクにおいてSOTAを達成；ImageNet-VidVRDではすべてのMetrics平均的に従来のSOTAと比べ3%向上できた．

その他（なぜ通ったか？等）

従来手法よりもっとSpanが長いObject間の関係をRepresentしやすくした．と同時に、処理のコストは増えない．

このページで利用されている画像は論文から引用しています．