VRDFormer: End-to-End Video Visual Relation Detection With Transformers

#301

summarized by : Shuhei M. Yoshida

Sipeng Zheng; Shizhe Chen; Qin Jin

動画から主体・客体とそれらの関係性を抽出する視覚的関係性検知に関する論文。従来法では、まず前段で物体検知とトラッキングによりトラックレットを生成し、後段でトラックレットの組に対して関係性の有無と（関係性がある場合は）その分類を行う。この多段構成が持つ限界を打破するのが本研究の目的。

Transformerベースの一段階モデル、VRDFormerを提案。静的クエリと再帰的クエリの組み合わせにより、検知とトラッキングを同時に行い、関係性分類に必要な時空間コンテキスト情報を効果的に収集する。

2つの主要なベンチマーク、ImageNet-VidVRDとVidORで評価し、SOTAの性能を出すことに成功した。

著者リポジトリ（7/10時点ではまだ空）：https://github.com/zhengsipeng/VRDFormer_VRD

このページで利用されている画像は論文から引用しています．