#256
summarized by : Ryota Suzuki
Point in, Box Out: Beyond Counting Persons in Crowds

どんな論文か?

群集の計数において回帰ベースで密度マップを出力するが流行っているそうだが,個々のカウントをしているわけではないし,そもそもなんでこれが出てきたかというと,BoundingBoxのアノテーションが辛いからだ.なので,点だけアノテーションすれば人の頭のBBoxを返せるDNNを作った.点から近傍の頭との距離を考慮した仮BBを初期推定,パースに合った形状にするような回帰ロスを導入.
placeholder

新規性

点を打つとBBoxが返るものは初らしい.

結果

Dilated CNNによる手法に追加で組み合わせたところMean Absolute Errorが2.3減少.

その他(なぜ通ったか?等)

ヒューリスティック感あるアルゴリズム.なぜその組み合わせで?という疑問が出るのが闇深.ところで,確かに点の方が作業量は少ないけど,結局画像の奥の方の人をクリックするのも大変そうだし解像度によっては性能出なそうな気がする.プロアノテータ―すごい…アノテーションエラーはどのくらい許容なのか?