#485
summarized by : 鈴木共生
CMT: Convolutional Neural Networks Meet Vision Transformers

どんな論文か?

Transformerで既存のCNNに近い精度を達成するためには,多くの計算量が必要になるという問題がある.この問題に対して,Transformerはattention機構で大域的な情報を扱うことに優れているのの,局所的な情報をうまく扱えていないことに注目した.提案法では,Tranformerを一部CNNに置き換えることで,精度と計算量で優れたトレードオフを実現した.
placeholder

新規性

提案法の構造は画像(c)のとおり.従来のTransformerで最初に行われるパッチ分割では局所的な情報をうまく扱えないため,最初にCMT Stemで畳み込み処理を行うことで局所的な情報を考慮している.また,Transformerで用いられるMHSAやFFNの中にもCNNを組み込むことで局所情報と大域情報の両方を学習可能にしている.

結果

ImageNetのTop-1精度において,少ないFLOPで重量級モデルであるDeiTやEfficientNet-B7に近い精度を達成.また,COCOデータにおける物体検出とセグメンテーションにおいて,FLOPsを揃えた場合に従来法よりも高い精度を達成した.

その他(なぜ通ったか?等)

Transformerの利点である大域情報を活用しつつ,欠点である局所情報をCNNをうまく組み込むことで精度と計算量で優れたトレードオフを実現したため.また,画像分類のみでなく他のタスクでも有効であることを示したため.