PointRend: Image Segmentation As Rendering

#291

summarized by : pshiko

Alexander Kirillov, Yuxin Wu, Kaiming He, Ross Girshick

どんな論文か？

Segmentationタスクに置いてグリッドで均等に推論を行うのではなく, 物体境界など予測が不確実になりがちな領域のみを重点的に推論を行いながら出力をUp-Scaleさせることにより, 計算量を抑えつつ高解像度の推論を行う手法であるPointRendを提案

新規性

通常の粗いグリッドレベルのsegmentation推論値をbilinear補間を繰り返しupsampleをする。その際に予測確率が0.5に近いなど確信度の低いピクセルを中心にサンプリングした点のみに対しMLPで再度クラス予測を行うことで計算量を削減しつつ精度の高い推論を行うPointRend Headを用いる.

結果

LVIS annotationデータでのinstance segmentationタスクにおいて, Mask R-CNNのmask headをPointRendに置き換えることでmask APが1.6ポイントから2.1ポイント向上. また224×224の出力をする場合では, 従来手法よりFLOPS及び使用メモリが1/30になった. semantic segmentationでも同様の効果を確認.

その他（なぜ通ったか？等）

すごくストレートフォーワードな手法で計算量削減と高解像度化に成功している. MLPを使っている箇所や, サンプリング手法は改善の余地がありそう.

このページで利用されている画像は論文から引用しています．