ViViT: A Video Vision Transformer

#139

summarized by : Kensho Hara

Anurag Arnab, Mostafa Dehghani, Georg Heigold, Chen Sun, Mario Lucic, Cordelia Schmid

どんな論文か？

動画認識のためのVision TransformerであるVideo Vision Transformer (ViViT)を提案．動画への拡張として，自己注意の計算方法や最初のトークンへの埋め込み方法などを複数実装し実験により比較した．

新規性

最初にフレームごとに自己注意で特徴抽出した後に時間方向に自己注意を計算するFactorised Encoder，各ブロックで空間方向，時間方向の自己注意を交互に繰り返すFactorised Self-Attention，空間方向と時間方向でそれぞれ自己注意を計算してから内積を取るFactorised Dot-Productなど複数の構成を比較し検討．

結果

Factorised Encoderが最も良い性能を示すことを確認．多くのデータセットで従来の3D CNNベースの手法よりも高い性能を達成．

その他（なぜ通ったか？等）

ICML2021に採択されていたTimeSformerに続いてトップ会議に採択された2本目の動画用Vision Transformer論文．同時期にたくさん類似したものが出てきた中で，ViViTの論文は実験がかなり丁寧で詳細に行われているのが強いという印象．

このページで利用されている画像は論文から引用しています．