#301
summarized by : Shuhei M. Yoshida
VRDFormer: End-to-End Video Visual Relation Detection With Transformers

どんな論文か?

動画から主体・客体とそれらの関係性を抽出する視覚的関係性検知に関する論文。従来法では、まず前段で物体検知とトラッキングによりトラックレットを生成し、後段でトラックレットの組に対して関係性の有無と(関係性がある場合は)その分類を行う。この多段構成が持つ限界を打破するのが本研究の目的。
placeholder

新規性

Transformerベースの一段階モデル、VRDFormerを提案。静的クエリと再帰的クエリの組み合わせにより、検知とトラッキングを同時に行い、関係性分類に必要な時空間コンテキスト情報を効果的に収集する。

結果

2つの主要なベンチマーク、ImageNet-VidVRDとVidORで評価し、SOTAの性能を出すことに成功した。

その他(なぜ通ったか?等)

著者リポジトリ(7/10時点ではまだ空):https://github.com/zhengsipeng/VRDFormer_VRD