#101
summarized by : Shuhei M. Yoshida
Object-Region Video Transformers

どんな論文か?

物体検知結果を活用した動画認識の研究。従来、物体検知を使った動画認識は、backboneの3D CNNが出力する特徴マップに物体検知結果を当て物体領域の特徴を抽出するため、特徴抽出段階で物体検知結果を活用できない。この点を改良し、特徴抽出にも物体検知の結果を利用する手法を提案する。
placeholder

新規性

Transformerのself-attention moduleに物体検知結果をkey/valueとして取り入れるobject-region attentionと、トラッキングの結果を取り入れて特徴量を改良するobject-dynamics modules、そしてこれら2つを統合したORViTブロックを提案。

結果

Few-shot行動認識ベンチマークであるSomething-Else、時空間行動検知のAVA、標準的な行動分類ベンチマークであるSomething-Something V2, Diving48, Epic-Kitchen100で評価し、各種ベンチマークで従来手法よりも良好な結果を得た。

その他(なぜ通ったか?等)