Seeing without Looking: Contextual Rescoring of Object Detections for AP Maximization

#298

summarized by : Hirokatsu Kataoka

Lourenço V. Pato, Renato Negrinho, Pedro M. Q. Aguiar

物体検出結果をベースとして、画像内の検出結果同士の文脈を考慮しながら検出枠の尤度を再計算する手法。ベースネットとしてFaster R-CNN, Cascade R-CNNを使用している。

Faster/Cascade R-CNN + RNN（Self-attention）というシンプルな枠組みながら、MSCOCOにおいてAverage Precision（AP）を+15ポイントさせた。

MSCOCO val2017において、ResNet-50を用いた場合ベースライン41.1から54.9（Cascade R-CNN; +13.8）、36.4から51.7（Faster R-CNN; +15.3）まで精度を向上した。

シンプルな手法で最大の精度向上が見られた、という点ではCVPRらしい。

このページで利用されている画像は論文から引用しています．