Locality Guidance for Improving Vision Transformers on Tiny Datasets

#258

summarized by : Ryo Nakamura

Kehan Li; Runyi Yu; Zhennan Wang; Li Yuan; Guoli Song; Jie Chen

どんな論文か？

ViTは，小規模なデータセットに対しての性能が著しく低い（cifar100では，訓練精度が100%であるにも関わらず，テスト精度が58%にしか到達しない）．この問題に対処するために，この論文では、微小なデータセットにおけるVTの性能を向上させるための局所性ガイドを提案．CNNの特徴である局所から大域への階層性に着目し既に学習済みのCNNの特徴を模倣することでVTの局所性誘導を実現．

新規性

提案された誘導法は一般的に有用であり視覚タスクにおける変換器の幅広い応用を促進することができることが示されたから． CNNの特徴模倣は，ViTの学習をガイドための補助的なタスクとして用いられるだけなので，CNNの性能がViTのボトルネックになることはなく、軽量モデルや低い画像解像度を利用でき，CNNの計算コストをできる限り小さくできる．

結果

・CIFAR-100において，提案手法はDeiTベースラインに対して13.07%の改善を達成し，より強いベースラインのPVTv2に対しては1.86%改善しCNNに代わる小さなデータセットにおけるViTの利用可能性を示すことができた．・本手法をChaoyangに適用し事前学習用の大規模データセットの入手が困難な医療画像において，その実用性と妥当性を示した．

その他（なぜ通ったか？等）

ViTの学習を効果的に行うために，CNNの特徴抽出にある局所性に着目し，それをCNNの学習済みモデルを利用した点．この論文の知見から，CNNの局所的な特徴抽出を誘導するようなガイドは色んな場面で応用ができそう． Github: https://github.com/lkhl/tiny-transformers

このページで利用されている画像は論文から引用しています．