SimMIM: A Simple Framework for Masked Image Modeling

#67

summarized by : Ryosuke Yamada

Zhenda Xie; Zheng Zhang; Yue Cao; Yutong Lin; Jianmin Bao; Zhuliang Yao; Qi Dai; Han Hu

どんな論文か？

Masked Autoencoder (MAE)の改善論文． block-wise maskingやVAEによるtoken化を必要とせずに，シンプルに学習可能とするSimple Framework for Masked Image Modeling (SimMIM)を提案．

新規性

提案手法の重要な要素は3つあり，(1) 効果的な表現を学習するためのPatch-aligned random masking，(2) マスク部分のピクセルを回帰するraw pixel regression taskの設計，(3) prediction headを軽量なlinear layerにすることで学習速度の高速化，である．

結果

ViT-BにおいてImageNet-1kのtop-1 Accuracyが83.8%を達成しており，BEiTから+0.6%の性能向上が確認されている．さらに，2022年現在Googleが独自に保有するJFT-3Bより約40倍少ないデータセットサイズで，4つの代表的なビジョンベンチマークにおいてstate-of-the-art accuracyを達成している．

その他（なぜ通ったか？等）

https://github.com/microsoft/SimMIM

このページで利用されている画像は論文から引用しています．