Steering Self-Supervised Feature Learning Beyond Local Pixel Statistics

#568

summarized by : 岡本大和

Simon Jenni, Hailin Jin, Paolo Favaro

どんな論文か？

特徴量獲得のために新しいSelf-Supervised-Learningの方法を提案。１枚の画像を複数の方法で加工して、CNNは入力された画像に対して何の加工がされているのか推論する。例えば加工方法が５パターンあるなら、加工なしも加えて計６パターン識別タスクとなる。また、加工方法の１つとして画像の一部を隠す方法を提案。

新規性

従来はSelf-Supervised-Learningのために反転・回転・ゆがみといった画像加工をしていた。しかし、これらはいずれもGlobal-Featureの変化に偏っていて、Local-Featureが学習しにくいと問題指摘。そこで、画像の一部をリアルなテクスチャに置き換えるネットワークを敵対学習を利用して構築した。（つまり、適当に画像一部を切り抜くわけではない）。この点に新しさがある。

結果

Self-Supervised-Learningで特徴量抽出部をpre-trainしたとき、PASCALやSTL-10やCelebAで（※PASCALはClassificationタスクのみで）SoTAを達成した。

その他（なぜ通ったか？等）

単に画像加工方法を新規提案しただけであれば通らなかったかもしれない。ただ、従来の方法ではGlobalな部分ばかりが学習されるという指摘には納得感があり、改善手法を提案できている。（欲を言うならば、定性的にLocal-Featureがよく学習できていることを示す結果がほしかった。）

このページで利用されている画像は論文から引用しています．