BEVT: BERT Pretraining of Video Transformers

#542

summarized by : hayamizu ryo

Rui Wang; Dongdong Chen; Zuxuan Wu; Yinpeng Chen; Xiyang Dai; Mengchen Liu; Yu-Gang Jiang; Luowei Zhou; Lu Yuan

どんな論文か？

映像表現学習を空間表現学習と時間ダイナミクス学習に分離したBEVTを提案．BEVTはVideo Swin Transformerから構築される．画像とビデオのペアを入力とすることで重みを共有し，ビデオデータに対して共同で学習する．

新規性

空間表現学習と時間ダイナミクス学習を切り離した新しい2ストリームネットワークを導入．映像サンプルによって空間的・時間的なヒントに対する傾向が異なることを示した．また，3つのビデオベンチマークを用いて実験し，SoTAを達成．

結果

Kinetics-400，SomethingSomething-v2，Diving-48を用いて実験した結果，Kinetics-400ではBEVTは81.1%のTop-1精度を達成．ベースラインの80.6% [37]よりも優れている．SomethingSomething-v2とDiving-48では，BEVTは71.4%と87.2%のTop-1精度を達成．

その他（なぜ通ったか？等）

https://github.com/xyzforever/BEVT

このページで利用されている画像は論文から引用しています．