- …
- …
#542
summarized by : hayamizu ryo
どんな論文か?
映像表現学習を空間表現学習と時間ダイナミクス学習に分離したBEVTを提案.BEVTはVideo Swin Transformerから構築される.画像とビデオのペアを入力とすることで重みを共有し,ビデオデータに対して共同で学習する.
新規性
空間表現学習と時間ダイナミクス学習を切り離した新しい2ストリームネットワークを導入.映像サンプルによって空間的・時間的なヒントに対する傾向が異なることを示した.
また,3つのビデオベンチマークを用いて実験し,SoTAを達成.
結果
Kinetics-400,SomethingSomething-v2,Diving-48を用いて実験した結果,Kinetics-400ではBEVTは81.1%のTop-1精度を達成.ベースラインの80.6% [37]よりも優れている.SomethingSomething-v2とDiving-48では,BEVTは71.4%と87.2%のTop-1精度を達成.
その他(なぜ通ったか?等)
https://github.com/xyzforever/BEVT
- …
- …