Kaiming He; Xinlei Chen; Saining Xie; Yanghao Li; Piotr Dollár; Ross Girshick
画像パッチをランダムに大部分をマスク、マスクされたパッチを再構成するように学習。Vision Transformer(ViT)の事前学習として有用であることを示す。
BEiTとの差異は、再構成loss。トークナイザー不要。マスクしたパッチを入力しない。
転移学習で教師あり学習以上。
各種データセットでSOTAであることを示す。
各種ハイパーパラメータの調査結果を示す。
https://github.com/facebookresearch/mae