Cross-Architecture Self-Supervised Video Representation Learning

#373

summarized by : 志田遥飛

Sheng Guo; Zihua Xiong; Yujie Zhong; Limin Wang; Xiaobo Guo; Bing Han; Weilin Huang

どんな論文か？

自己教師ありビデオ表現学習のための新しいクロスアーキテクチャ対比学習フレームワークCACL(Cross Architecture Contrastive Learning)を提案．本手法は，3D CNNとVideo Transformerを組み合わせることで時間的表現や映像的表現を局所的かつ大域的に捉えることに成功した．

新規性

3D CNNのビデオタスクでの活躍と，Video Transformerの特徴を活かして3D CNNから得られた局所的な表現transformerで補強する，という手法を提案したこと．既存手法は，transformerを使った大域的な表現を学習することはできても，局所的な表現をうまく捉えられていなかったものや，3D CNNを使い逆の結果になるものばかりだった．

結果

2つの異なる下流タスク(ビデオ検索，行動認識)で本手法の性能を評価，添付した画像の通り，最新手法のほとんどを上まわっていることがわかる．

その他（なぜ通ったか？等）

【気になった点】本手法で得られた特徴はそれまでのCnstractive Learningから得られる表現と異質であることが示された，と説明されていたこと．クロスアーキテクチャを適用することで，単一アーキテクチャのときと比べてどのように表現が変化したのか．

このページで利用されている画像は論文から引用しています．