Scaling Up Your Kernels to 31x31: Revisiting Large Kernel Design in CNNs

#81

summarized by : cho

Xiaohan Ding; Xiangyu Zhang; Jungong Han; Guiguang Ding

どんな論文か？

VITの性能がCNNより優れている理由として、本論文が「大きな受容野(large receptive fields)」を注目。主流の小さなカーネルではなく、いくつかの大きな畳み込みカーネルで純粋なCNNモデルRepLKNetを構築した。詳しく言えば、Swin TransformerのMHSTを大きな畳み込みカーネルに置き換えた。結果として、大幅にCNNとVITの間の性能差を縮めた。

新規性

本論文がCNNアーキテクチャの設計において長らく無視されてきた大きいサイズの畳み込みカーネルを再考した。

結果

RepLKNet（サイズ：Swin-Bとほぼ同じ）でImageNet 84.8% top-1 正解率を達成し、Swin-Bより0.3%高かった。物体検出・セグメンテーションなどもいい性能を示す。

その他（なぜ通ったか？等）

https://github.com/megvii-research/RepLKNet

このページで利用されている画像は論文から引用しています．