Improving Vision Transformers by Revisiting High-Frequency Components

#304

summarized by : Hiroaki Aizawa

Jiawang Bai; Li Yuan; Shu-Tao Xia; Shuicheng Yan; Zhifeng Li; Wei Liu

CNNと比較して，ViTといったTransformerモデルの学習の困難性の原因がViTにおける高周波成分の学習に起因しているという仮説のもと，離散フーリエ変換を施した入力画像に対して低-高周波成分に摂動を加えた画像を作成し，その性能からViTを調査した論文

知識蒸留，データ拡張，モデル構造などいくつかのテクニックに関して，周波数の観点から有効性を実験的に検証していること．高周波成分の学習をAdversarial Trainingから行うHATという方法を提案していること．

提案するHATによってTransformerベースの手法の性能を一貫して改善．特に，OoDデータへの有効性や，HATによる事前学習モデルのDownstreamタスクへの転移性も優れていることを実験的に明らかにしている．

このページで利用されている画像は論文から引用しています．