#480
summarized by : 鈴木共生
CSWin Transformer: A General Vision Transformer Backbone With Cross-Shaped Windows

どんな論文か?

Transformerにおいてself-attensionを特徴全体に行う場合,膨大な計算量が必要になる.その場合に小さなwindowに分割して処理することで計算量を削減できるが、精度劣化があるという問題があった.提案法では分割方式を改良することによって計算量を抑えつつ精度の改善を実現した.
placeholder

新規性

提案法の改善は画像のとおり.windowではなく,チャネル方向に2分割された特徴に対して縦横のstripeでself-attentionを行った.このようにすることで,windowよりもattentionの領域が広がり,精度が向上した.また,特徴の解像度に合わせて,ネットワークの前端はstraipeの幅を小さくし、後段は大きくすることでattension領域を効果的に拡大することも可能にした.

結果

従来のTranformer手法と比較.FLOPsを揃えた場合にImageNet-1KのTop-1精度,COCOデータ物体検出のAP,ADE20KセグメンテーションのmIoUにおいて最も良い精度を達成した.

その他(なぜ通ったか?等)

従来のTransformerの主流であったwindow分割をstripeにするというシンプルな改良で計算量を増やすことなく精度改善を実現したため.また,その効果検証を画像分類・物体検出・セグメンテーションと複数タスクで実施して有効性を示しているため.