#369
summarized by : 志田遥飛
A Simple Data Mixing Prior for Improving Self-Supervised Learning

どんな論文か?

CNNとViT,両方に対して有効な,データ混合による自己教師ありの事前学習補強手法を提案.データ混合画像の本質的な関係(元画像を共有している,混合度合いの違う画像たち)を正例として与え,表現学習を促進させることを目的としている.本手法は,自己教師ありViTに対する学習を促進(補強ではなく)させることに成功した最初の手法である.
placeholder

新規性

SSL ViTにも有効なデータ混合による表現学習の補強手法を提案している点.今までSSL CNNに対して有効な手法はいくつか提案されてきたが,ViTに対して有効な手法は提案されてこなかったため新規性が高い.また,ViTに対してデータ混合で学習を補強すると大きく精度が改善するため今後の活用に期待が高まるような論文だった.

結果

ImageNetを使い, 上位1位ViT-Sの精度が0.6%ほど向上した. (既存の手法では,精度が0.2% ~ 1.6%低下する) 添付した画像ではImageNet - 1Kを使い,異なる自己教師あり学習手法と,提案手法で同じバックボーンを学習した際の精度の違いを報告している.

その他(なぜ通ったか?等)

【プロジェクトリポジトリへのリンク】 https://github.com/OliverRensu/SDMP. 【感想】 今までSSL CNNに対して有効な手法はいくつか提案されてきたが,ViTに対して有効な手法は提案されてこなかったため新規性が高い.また,ViTに対してデータ混合で学習を補強すると大きく精度が改善するため今後の活用に期待が高まるような論文だった.