#302
summarized by : Akihiro FUJII
Wave-ViT: Unifying Wavelet and Transformers for Visual Representation Learning

どんな論文か?

トランスフォーマーの計算量削減において、KとVを平均プーリングでダウンサンプリングさせるという手法がある。そこにWavelet変換を適用することで計算量を削減しつつも精度を従来のダウンサンプリング手法よりも向上させたという研究。
placeholder

新規性

トランスフォーマーのダウンサンプリングにWavelet変換を適用した点。ダウンサンプリングに適用すると、従来手法よりも情報のロスが少ないまま計算量が削減できるとのこと

結果

ImageNet-1KやMS COCOにおいてSwin-Tなど同程度の計算量のモデルで比較すると、精度よいモデルになっている

その他(なぜ通ったか?等)