Self-Supervised Learning of Pretext-Invariant Representations

#110

summarized by : hiroki tsujimoto

Ishan Misra, Laurens van der Maaten

どんな論文か？

画像を用いた自己教師学習の目的は，教師ラベルが不要なpretextタスクを介して，画像の特徴を得ることである．従来のpretextタスクでは画像変換に共変する特徴が得られてしまうという問題を提示し，画像変換に不変な特徴を得ることができるPretext-Invariant Representation Learning (PIRL)を提案した．

新規性

画像変換に不変な特徴を学習するPIRLを提案．

結果

物体検知(VOC)の事前学習に提案手法を用いて，既存手法だけでなく教師あり手法をも上回る精度を達成した．また，提案手法で得られた特徴量を用いて，画像分類(ImageNet，VOC07，Place205，iNaturalist)を行い，ImageNet以外のデータセットについて提案手法を新たなSOTAとして位置づけした．

その他（なぜ通ったか？等）

既存手法のメモリーバンクを用いて計算量削減することで，ネガティブサンプル数を大きく設定できた(32,000枚)．画像変換の数とモデルのパラメータ数は比例しないのが利点で，任意の画像変換をモデルに与えることができる．比較手法の網羅性が高く，提案手法の分析も豊富．

このページで利用されている画像は論文から引用しています．