#244
summarized by : Kensho Hara
Frozen CLIP Models Are Efficient Video Learners

どんな論文か?

画像データでPretrainしたモデルを動画データでFinetuneするという従来のやり方は効率が良くない指摘.それに対してPretrainされたCLIPのパラメータを固定して軽量のTransformerデコーダーを動画データで学習する手法を提案.
placeholder

新規性

従来のEnd-to-endのfinetuningの問題点を指摘し,パラメータ固定のCLIP画像特徴を利用する手法を提案した点が新規.

結果

End-to-endのfinetuningよりも短い学習時間で同等以上の性能を達成.

その他(なぜ通ったか?等)

https://github.com/OpenGVLab/efficient-video-recognition