#267
summarized by : Anonymous
Semi-Supervised Vision Transformers

どんな論文か?

Vision Transformerの半教師学習に関する研究。まず、pseudoラベリングによる従来の半教師学習の枠組みをVision Transformerに応用した場合の性能を評価。また、CNNとTransformerを組み合わせて半教師学習を行うSemiformerを提案。
placeholder

新規性

モデルはCNNとTransformerの2つのstreamから構成されており、双方の出力を結合する構造になっている。学習ではFixMatch同様、ラベル無し画像を弱拡張と強拡張により変換する。弱拡張した画像をモデルに入力し、CNNの予測結果をpseudoラベルとして扱い、強拡張した画像のCNN及びTransformerの正解ラベルとして学習を行う。

結果

ラベル付きデータが10%の場合、ImageNet 1kのtop-1 accuracyが75.5%を達成。

その他(なぜ通ったか?等)

https://github.com/wengzejia1/Semiformer