Masked Autoencoders Are Scalable Vision Learners

#288

summarized by : take

Kaiming He; Xinlei Chen; Saining Xie; Yanghao Li; Piotr Dollár; Ross Girshick

画像パッチをランダムに大部分をマスク、マスクされたパッチを再構成するように学習。Vision Transformer（ViT）の事前学習として有用であることを示す。

BEiTとの差異は、再構成loss。トークナイザー不要。マスクしたパッチを入力しない。

転移学習で教師あり学習以上。各種データセットでSOTAであることを示す。各種ハイパーパラメータの調査結果を示す。

https://github.com/facebookresearch/mae

このページで利用されている画像は論文から引用しています．