Video Action Transformer Network

#509

summarized by : Hirokatsu Kataoka

Rohit Girdhar, Joao Carreira, Carl Doersch, Andrew Zisserman

どんな論文か？

動画像内で人物の空間的な位置と行動を同時に推定する問題を扱う。本論文では人物に特化したアテンション機構を実装し、頭部/手部などに注視した状態で特徴抽出、同特徴から人物検出と行動認識を行う。

新規性

動作特徴を抽出するI3D（Inflated 3D Network）をベースモデルとして、候補領域（Region Proposal Network; RPN）と行動認識のための特徴抽出を行うAction Transformerを提案した。さらに、Self-attention機構も加えることにより、人物や物体に着目した特徴抽出を可能とした。アーキテクチャは図に示す通りである。

結果

Atomic Visual Actions (AVA) datasetにて検証した。AVAでは「人物を見る」「会話している」など抽象的なカテゴリも含むが、提案手法は人物特化のアテンション機構により認識精度を向上させることに成功。I3Dをベースモデルとしたモデルでは25.0@Val mAP, 24.93@Test mAPを達成した。

その他（なぜ通ったか？等）

このページで利用されている画像は論文から引用しています．