- …
- …
#67
summarized by : Ryosuke Yamada
どんな論文か?
Masked Autoencoder (MAE)の改善論文.
block-wise maskingやVAEによるtoken化を必要とせずに,シンプルに学習可能とするSimple Framework for Masked Image Modeling (SimMIM)を提案.
新規性
提案手法の重要な要素は3つあり,(1) 効果的な表現を学習するためのPatch-aligned random masking,(2) マスク部分のピクセルを回帰するraw pixel regression taskの設計,(3) prediction headを軽量なlinear layerにすることで学習速度の高速化,である.
結果
ViT-BにおいてImageNet-1kのtop-1 Accuracyが83.8%を達成しており,BEiTから+0.6%の性能向上が確認されている.さらに,2022年現在Googleが独自に保有するJFT-3Bより約40倍少ないデータセットサイズで,4つの代表的なビジョンベンチマークにおいてstate-of-the-art accuracyを達成している.
その他(なぜ通ったか?等)
https://github.com/microsoft/SimMIM
- …
- …