- …
- …
#753
summarized by : Yue Qiu
どんな論文か?
従来のVideo visual relation検出手法はビデオSegmentに対して物体、物体関係を検出、次に各Segmentのデータを融合し関係推定を行う.①長いSpanを持った関係を推定しにくい;②Segmentごとに関係推定が非効率的.提案手法はSliding-windowを持った構造で同時にShortとLong span関係を検出できるようにし、Graph NNで更に関係をリファイン.
新規性
① ShortとLong-term関係を推定できる sliding-window schemeを提案.②3-stagesビデオ視覚関係推定手法の提案:Stage-1でsliding-windows構造によりobject tracklet proposalsを生成;Stage-2でspatio GCNとTemporal GCNによりProposalsの特徴をリファイン;Stage-3で関係の推定する
結果
従来広く使われている2つのデータセットImageNet-VidVRDとVidORで複数のタスクにおいてSOTAを達成;ImageNet-VidVRDではすべてのMetrics平均的に従来のSOTAと比べ3%向上できた.
その他(なぜ通ったか?等)
従来手法よりもっとSpanが長いObject間の関係をRepresentしやすくした.と同時に、処理のコストは増えない.
- …
- …