#288
summarized by : take
Masked Autoencoders Are Scalable Vision Learners

どんな論文か?

画像パッチをランダムに大部分をマスク、マスクされたパッチを再構成するように学習。Vision Transformer(ViT)の事前学習として有用であることを示す。
placeholder

新規性

BEiTとの差異は、再構成loss。トークナイザー不要。マスクしたパッチを入力しない。

結果

転移学習で教師あり学習以上。 各種データセットでSOTAであることを示す。 各種ハイパーパラメータの調査結果を示す。

その他(なぜ通ったか?等)

https://github.com/facebookresearch/mae