#255
summarized by : Ryo Nakamura
Training Vision Transformers with Only 2040 Images

どんな論文か?

限られたデータ(例えば、2040画像)でViTを学習する方法を検討した論文. ViTはCNNに匹敵する結果を得ることができるが,典型的な畳み込み誘導バイアスがないため,一般的なCNNよりも多くのデータを学習に要すると言われている.ViTが提案された当初はJFT-300M,その後研究が進みImageNetで事前学習を行うことが多く行われている.
placeholder

新規性

ImageNetレベルの1M規模のデータセットがViTの学習には必要とされていたが,2040枚のFlowersデータセットで,良質な結果を得ることができている点.ViTの学習では,必ずしも大規模データセットが必要でないことがわかった.

結果

・自己教師付きViT学習のためのIDMMを提案し7つの小規模データセットに対して様々なViTバックボーンをゼロから学習した場合でもSOTAを達成. ・小規模なデータセットにおける伝達能力を分析しViTが小規模なデータセットで事前学習した場合でも良好な伝達能力を持つことを見いだした. ・小規模データを扱う際に損失の観点からパラメトリックインスタンス識別を優先すべき理由について理論的な分析を行った.

その他(なぜ通ったか?等)

ViTの事前学習には大規模データセットが必要であるという考えを変えるような結果を出すことができた点と限られたデータセットにおけるViTの学習でSoTAを達成したこと.