Masked Siamese Networks for Label-Efficient Learning

#162

summarized by : Hirokatsu Kataoka

Mahmoud Assran; Mathilde Caron; Ishan Misra; Piotr Bojanowski; Florian Bordes; Pascal Vincent; Armand Joulin; Michael Rabbat; Nicolas Ballas

どんな論文か？

端的にいうとMasked AutoEncoder（MAE）とSimSiamを組み合わせたMasked Siamese Network（MSN）の提案論文。基準となる画像に欠損を施した画像（MAEの操作）とデータ拡張画像の２画像を入力として、画像の特徴表現を獲得することで、少量教師学習においても良好な性能を叩き出すことができた。

新規性

MAEとSimSiamの方法を統合して、ViTを学習することで少量教師学習に対してとても上手くいくことを明らかにした。単一の使用ではあまり上手くいかないことや他の自己教師あり学習手法では提案法の精度まで到達できないことも明らかにしている。

結果

ImageNet-1kの画像識別において、5,000ラベル/1%ラベルの評価を実施した。結果はそれぞれ72.4%/75.7%で少量教師によるImageNet-1kの画像識別ではstate-of-the-artを達成した。

その他（なぜ通ったか？等）

GitHubへのリンク：https://github.com/facebookresearch/msn

このページで利用されている画像は論文から引用しています．