#304
summarized by : Hiroaki Aizawa
Improving Vision Transformers by Revisiting High-Frequency Components

どんな論文か?

CNNと比較して,ViTといったTransformerモデルの学習の困難性の原因がViTにおける高周波成分の学習に起因しているという仮説のもと,離散フーリエ変換を施した入力画像に対して低-高周波成分に摂動を加えた画像を作成し,その性能からViTを調査した論文
placeholder

新規性

知識蒸留,データ拡張,モデル構造などいくつかのテクニックに関して,周波数の観点から有効性を実験的に検証していること.高周波成分の学習をAdversarial Trainingから行うHATという方法を提案していること.

結果

提案するHATによってTransformerベースの手法の性能を一貫して改善.特に,OoDデータへの有効性や,HATによる事前学習モデルのDownstreamタスクへの転移性も優れていることを実験的に明らかにしている.

その他(なぜ通ったか?等)