#364
summarized by : Kodai Nakashima
DualFormer: Local-Global Stratified Transformer for Efficient Video Recognition

どんな論文か?

動画像認識のためのアーキテクチャ(DualFormer)を提案した.DualFormerは時空間注意を効率的に行うことができる.これは膨大な3Dトークンの自己注意により計算コストが高くなりがちな動画像認識において重要である.具体的には,近傍トークン間の短距離相互作用を捉えたのち長距離依存性を補足するようにした.
placeholder

新規性

時空間注意を2つのカスケードレベルに階層化した.時空間分解を行う既存手法よりも短距離と長距離の時空間依存性をうまく捉えることができる.さらに注意計算のキーとバリューの数を大幅に減らすことも可能になった.

結果

Kinetics-400/600において,約1000Gの推論FLOPsで82.9%/85.2%のトップ1精度を達成

その他(なぜ通ったか?等)

https://github.com/sail-sg/dualformer