- …
- …
#81
summarized by : cho
どんな論文か?
VITの性能がCNNより優れている理由として、本論文が「大きな受容野(large receptive fields)」を注目。
主流の小さなカーネルではなく、いくつかの大きな畳み込みカーネルで純粋なCNNモデルRepLKNetを構築した。詳しく言えば、Swin TransformerのMHSTを大きな畳み込みカーネルに置き換えた。
結果として、大幅にCNNとVITの間の性能差を縮めた。
新規性
本論文がCNNアーキテクチャの設計において長らく無視されてきた大きいサイズの畳み込みカーネルを再考した。
結果
RepLKNet(サイズ:Swin-Bとほぼ同じ)でImageNet 84.8% top-1 正解率を達成し、Swin-Bより0.3%高かった。
物体検出・セグメンテーションなどもいい性能を示す。
その他(なぜ通ったか?等)
https://github.com/megvii-research/RepLKNet
- …
- …