#542
summarized by : hayamizu ryo
BEVT: BERT Pretraining of Video Transformers

どんな論文か?

映像表現学習を空間表現学習と時間ダイナミクス学習に分離したBEVTを提案.BEVTはVideo Swin Transformerから構築される.画像とビデオのペアを入力とすることで重みを共有し,ビデオデータに対して共同で学習する.
placeholder

新規性

空間表現学習と時間ダイナミクス学習を切り離した新しい2ストリームネットワークを導入.映像サンプルによって空間的・時間的なヒントに対する傾向が異なることを示した. また,3つのビデオベンチマークを用いて実験し,SoTAを達成.

結果

Kinetics-400,SomethingSomething-v2,Diving-48を用いて実験した結果,Kinetics-400ではBEVTは81.1%のTop-1精度を達成.ベースラインの80.6% [37]よりも優れている.SomethingSomething-v2とDiving-48では,BEVTは71.4%と87.2%のTop-1精度を達成.

その他(なぜ通ったか?等)

https://github.com/xyzforever/BEVT