#436
summarized by : pshiko
SpineNet: Learning Scale-Permuted Backbone for Recognition and Localization

どんな論文か?

featureの解像度を単調減少させつつ畳み込み層を重ねるbackboneはrecognitionには有効だが空間情報の欠落によりlocalizationには向かないことを指摘. 従来のbackboneの畳み込み時の解像度とレイヤの関係を並び替え, 各レイヤの解像度を単調減少ではなく任意のスケールにし、複数の異なるスケール間の接続をもつbackboneをNASで探索したSpineNetを提案.
placeholder

新規性

従来の解像度を単調減少させるarchitectureが最適でないことを示し, 解像度と層を独立にした探索空間を提案した点.

結果

Retina-NetのbackboneをSpineNet-190にしたモデルでCOCOの単一モデルとしてのSOTAとなる精度を達成(52.1AP). Spine-Net49はR50-NAS-FPNより10%以上少ないFLOPSで3ポイントの精度改善を達成

その他(なぜ通ったか?等)

新たなメタアーキテクチャを提案し, 実際に精度向上を確認できた点.