#691
summarized by : 金城 忍
Scaling Local Self-Attention for Parameter Efficient Visual Backbones

どんな論文か?

与えられた画像をブロックに分割し、近隣のブロックの任意の数の要素を取り入れ再構成したブロックをクエリーとして扱うことで、受容野のサイズを広げる一方で、計算量を改善する手法の提案

新規性

近傍の要素を考慮したブロック中心のクエリーに基づく要素毎の大域的関連度を捉えるという点で新規

結果

ResNetをベースにImageNetを使用したEfficientNetとの比較では、比較的少ないパラメータ数で提案手法が良い結果を達成 (Top1@Validation) する一方で、純粋なResNet-50と畳み込みを提案手法に変えたものとの比較でも提案手法が良い結果を達成した

その他(なぜ通ったか?等)