#81
summarized by : cho
Scaling Up Your Kernels to 31x31: Revisiting Large Kernel Design in CNNs

どんな論文か?

VITの性能がCNNより優れている理由として、本論文が「大きな受容野(large receptive fields)」を注目。 主流の小さなカーネルではなく、いくつかの大きな畳み込みカーネルで純粋なCNNモデルRepLKNetを構築した。詳しく言えば、Swin TransformerのMHSTを大きな畳み込みカーネルに置き換えた。 結果として、大幅にCNNとVITの間の性能差を縮めた。
placeholder

新規性

本論文がCNNアーキテクチャの設計において長らく無視されてきた大きいサイズの畳み込みカーネルを再考した。

結果

RepLKNet(サイズ:Swin-Bとほぼ同じ)でImageNet 84.8% top-1 正解率を達成し、Swin-Bより0.3%高かった。 物体検出・セグメンテーションなどもいい性能を示す。

その他(なぜ通ったか?等)

https://github.com/megvii-research/RepLKNet