#229
summarized by : Ryo Takahashi
Mobile-Former: Bridging MobileNet and Transformer

どんな論文か?

mobilenetとtransformerを並列に組み合わせた。mobioenetによる特徴抽出を行ったうえでそれらの特徴をトークンとしてtransformerで扱うことにより、パッチ分割してトークンとする従来のtransformerよりパッチ数を大幅に削減(196→6)した。
placeholder

新規性

従来研究でもmobilenetで特徴抽出したのちにtransformerで処理するという研究はあったが、これらはseriesな組み合わせである。他方、本研究では図のようにtransformerブロックとmobilenetブロックを並行し複数段組み合わせている。mobileブロックでは特徴抽出、formerブロックではself-attentionを行い、各段ごとに両者を橋渡ししている。

結果

mobilenetv3 / efficientnet/ Deitなどの従来研究に比べてacc vs FLOP数のトレードオフを改善することに成功した(@imagenet top-1 acc)

その他(なぜ通ったか?等)

mobilenetとtransformerの構造を細かく分割し、単純に直列につなげるのではなく両者をうまく組み合わせたことにより精度向上に成功したのが成功要因か。ablationなどもしっかりしている印象 リンク:https://github.com/aaboys/mobilformer