- …
- …
#244
summarized by : Kensho Hara
どんな論文か?
画像データでPretrainしたモデルを動画データでFinetuneするという従来のやり方は効率が良くない指摘.それに対してPretrainされたCLIPのパラメータを固定して軽量のTransformerデコーダーを動画データで学習する手法を提案.
新規性
従来のEnd-to-endのfinetuningの問題点を指摘し,パラメータ固定のCLIP画像特徴を利用する手法を提案した点が新規.
結果
End-to-endのfinetuningよりも短い学習時間で同等以上の性能を達成.
その他(なぜ通ったか?等)
https://github.com/OpenGVLab/efficient-video-recognition
- …
- …