#434
summarized by : Hirokatsu Kataoka
Bootstrapping ViTs: Towards Liberating Vision Transformers From Pre-Training

どんな論文か?

Vision Transformers(ViT)のInductive Biasの問題を緩和するために、Agent CNNより知識を与え、ViTからは重みを共有することにより、比較的小規模なデータセットの認識結果においても精度の底上げを実施する。最適化にはBootstrapping Optimization Algorithmが適用されたと説明。
placeholder

新規性

学習中にCNNから知識を共有することにより、Pre-trainingなしでもCIFAR-10/100など比較的小さなデータセットの学習においても高い性能まで到達するようになったことが新規性である。

結果

CIFAR-10/100にて提案の枠組みを採用した。事前学習なしでもCIFAR-10ではViT-S/Bにてそれぞれ+7.82/+15.76の精度向上が、CIFAR-100では+14.94/+24.76の精度向上が見られた。学習時間においても、CIFAR-100では4時間いないには学習を終えていると報告。

その他(なぜ通ったか?等)

GitHub page: https://github.com/ zhfeing/Bootstrapping-ViTs-pytorch