#379
summarized by : Haruhi Shida
Expanding Language-Image Pretrained Models for General Video Recognition

どんな論文か?

対照的言語画像事前学習はWebのデータから視覚とテキストの結合表現を学習することに大きな成功を収め様々な画像タスクに対して顕著なゼロショットな汎化能力を示している.しかし、このような新しい言語画像前知識学習法をどのようにビデオドメインに効果的に拡張するかはまだ未解決の問題である.そこで本研究では事前学習した言語画像モデルを直接動画像認識に適応させるという、シンプルかつ効果的なアプローチを提案する.
placeholder

新規性

現状,動画像認識への移植と適応は十分に研究されていない.なぜなら事前学習したクロスモダリティモデルを画像からビデオ領域へ適応させる場合に「動画像の時間情報の活用方法」「識別可能なテキスト表現をどのように獲得するのか」といった未解決の問題があった.提案手法は上記2つの課題を解決することで、既存の画像レベルのクロスモダリティ事前学習モデルをビデオドメインにスムーズに適応させることができる.

結果

包括的な実験により,本論文の提案する拡張モデルが概ね有効であることが示された.特に完全教師ありの設定では添付画像に示すように,X-CLIP-L/14はKinetics-400/600において12倍少ないFLOPで,ViViT-Hを2.3%/2.5%上回る87.1%/88.3%のトップの精度を達成した.

その他(なぜ通ったか?等)