Frozen CLIP Models Are Efficient Video Learners

#244

summarized by : Kensho Hara

Ziyi Lin; Shijie Geng; Renrui Zhang; Peng Gao; Gerard de Melo; Xiaogang Wang; Jifeng Dai; Yu Qiao; Hongsheng Li

画像データでPretrainしたモデルを動画データでFinetuneするという従来のやり方は効率が良くない指摘．それに対してPretrainされたCLIPのパラメータを固定して軽量のTransformerデコーダーを動画データで学習する手法を提案．

従来のEnd-to-endのfinetuningの問題点を指摘し，パラメータ固定のCLIP画像特徴を利用する手法を提案した点が新規．

End-to-endのfinetuningよりも短い学習時間で同等以上の性能を達成．

https://github.com/OpenGVLab/efficient-video-recognition

このページで利用されている画像は論文から引用しています．