Masked Feature Prediction for Self-Supervised Visual Pre-Training

#27

summarized by : 志田　遥飛

Chen Wei; Haoqi Fan; Saining Xie; Chao-Yuan Wu; Alan Yuille; Christoph Feichtenhofer

どんな論文か？

ビデオ自己教師付き事前学習のためのマスクドフィーチャープレディクション手法 (MaskFeat)の提案．本手法はマスクされたコンテンツの特徴を直接回帰する事前学習である．この手法は6つのビデオデータに対して前例の無い高い性能を達成することができた．(＋画像=1フレームの動画と拡張理解してImage Net界隈でも戦っていける性能を獲得した)

新規性

ハンドメイド特徴量記述子HOG(Histograms of Oriented Gradients)とMaskFeatがビデオ自己教師付き事前学習モデルでも有効であると見出した点．

結果

ラベル付けされていない動画を学習させ，Kinetics-400(with MViTv2) 86.7%，Kinetics-700 80.4%，AVA 38.8 mPA，SSv2 75.0%の精度を達成．ImageNet-1Kのみを用いてVit-Bで84.0% ViT-Lで85.7%というトップクラスの性能を獲得することができた

その他（なぜ通ったか？等）

【なぜ通ったか?】 MaskFeat，HOGがビデオ自己教師あり事前学習モデルで効率的，汎化的な性能を高めることを示せたから? 【実装ページへのリンク】実装がFacebookのpytorchvideo1,2で近いうちに公開されるらしい． https://github.com/facebookresearch/pytorchvideo

このページで利用されている画像は論文から引用しています．