DualFormer: Local-Global Stratified Transformer for Efficient Video Recognition

#364

summarized by : Kodai Nakashima

Yuxuan Liang; Pan Zhou; Roger Zimmermann; Shuicheng Yan

どんな論文か？

動画像認識のためのアーキテクチャ（DualFormer）を提案した．DualFormerは時空間注意を効率的に行うことができる．これは膨大な3Dトークンの自己注意により計算コストが高くなりがちな動画像認識において重要である．具体的には，近傍トークン間の短距離相互作用を捉えたのち長距離依存性を補足するようにした．

新規性

時空間注意を2つのカスケードレベルに階層化した．時空間分解を行う既存手法よりも短距離と長距離の時空間依存性をうまく捉えることができる．さらに注意計算のキーとバリューの数を大幅に減らすことも可能になった．

結果

Kinetics-400/600において，約1000Gの推論FLOPsで82.9%/85.2%のトップ1精度を達成

その他（なぜ通ったか？等）

https://github.com/sail-sg/dualformer

このページで利用されている画像は論文から引用しています．