#298
summarized by : Hirokatsu Kataoka
Seeing without Looking: Contextual Rescoring of Object Detections for AP Maximization

どんな論文か?

物体検出結果をベースとして、画像内の検出結果同士の文脈を考慮しながら検出枠の尤度を再計算する手法。ベースネットとしてFaster R-CNN, Cascade R-CNNを使用している。
placeholder

新規性

Faster/Cascade R-CNN + RNN(Self-attention)というシンプルな枠組みながら、MSCOCOにおいてAverage Precision(AP)を+15ポイントさせた。

結果

MSCOCO val2017において、ResNet-50を用いた場合ベースライン41.1から54.9(Cascade R-CNN; +13.8)、36.4から51.7(Faster R-CNN; +15.3)まで精度を向上した。

その他(なぜ通ったか?等)

シンプルな手法で最大の精度向上が見られた、という点ではCVPRらしい。