- …
- …
#267
summarized by : Anonymous
どんな論文か?
Vision Transformerの半教師学習に関する研究。まず、pseudoラベリングによる従来の半教師学習の枠組みをVision Transformerに応用した場合の性能を評価。また、CNNとTransformerを組み合わせて半教師学習を行うSemiformerを提案。
新規性
モデルはCNNとTransformerの2つのstreamから構成されており、双方の出力を結合する構造になっている。学習ではFixMatch同様、ラベル無し画像を弱拡張と強拡張により変換する。弱拡張した画像をモデルに入力し、CNNの予測結果をpseudoラベルとして扱い、強拡張した画像のCNN及びTransformerの正解ラベルとして学習を行う。
結果
ラベル付きデータが10%の場合、ImageNet 1kのtop-1 accuracyが75.5%を達成。
その他(なぜ通ったか?等)
https://github.com/wengzejia1/Semiformer
- …
- …