Grid R-CNN

#29

summarized by : Shuhei M Yoshida

Xin Lu, Buyu Li, Yuxin Yue, Quanquan Li, Junjie Yan

どんな論文か？

従来の深層学習に基づく物体検知では、バウンディングボックスを回帰する方法が一般的だった。これに対して提案手法では、バウンディングボックス上にN x N個の格子点を設定し、その位置をヒートマップとして推定し、それをもとにバウンディングボックスを求める。

新規性

(1) バウンディングボックス回帰に代わり、バウンディングボックス上の格子点を予測するtwo-stage型物体検出アルゴリズムGrid R-CNNを提案。 (2) 格子点間の関係を学習する特徴フュージョン機構を提案。 (3) 予測対象の格子点がRoIから外れても予測可能にするExtended Region Mappingを提案。

結果

COCOで評価。Faster-RCNN + ResNet-50 + FPNに対してmAP 37.4%から39.6%へ2.2%の向上。また、IoU閾値を厳しくした場合の精度向上が著しい（IoU=0.8でmAP+4.1%, IoU=0.9でmAP+10.0%）。クラス毎の精度の分析から、物体の形状が精度に影響するという定性的な知見が得られた。

その他（なぜ通ったか？等）

厳しいIoU閾値に対する精度向上は驚き。バウンディングボックスの高い精度が必要な用途では選択肢になるか。

このページで利用されている画像は論文から引用しています．