#67
summarized by : Ryosuke Yamada
SimMIM: A Simple Framework for Masked Image Modeling

どんな論文か?

Masked Autoencoder (MAE)の改善論文. block-wise maskingやVAEによるtoken化を必要とせずに,シンプルに学習可能とするSimple Framework for Masked Image Modeling (SimMIM)を提案.
placeholder

新規性

提案手法の重要な要素は3つあり,(1) 効果的な表現を学習するためのPatch-aligned random masking,(2) マスク部分のピクセルを回帰するraw pixel regression taskの設計,(3) prediction headを軽量なlinear layerにすることで学習速度の高速化,である.

結果

ViT-BにおいてImageNet-1kのtop-1 Accuracyが83.8%を達成しており,BEiTから+0.6%の性能向上が確認されている.さらに,2022年現在Googleが独自に保有するJFT-3Bより約40倍少ないデータセットサイズで,4つの代表的なビジョンベンチマークにおいてstate-of-the-art accuracyを達成している.

その他(なぜ通ったか?等)

https://github.com/microsoft/SimMIM