summarized by : Ryota Nishijima
Weizhe Liu, Mathieu Salzmann, Pascal Fua
画像に写る群衆を計数するcrowd countingのタスクで、近年CNNを用いてdensity mapを求める手法が使われているが、様々な大きさの人間を見つけるために入力画像をさまざまな大きさに変化させて計算を行っていた。これは人間のスケールが連続的に変化することを無視していた。
単一の入力画像からさまざまなスケールの特徴量を考慮できる仕組みを提案。VGGの特徴マップをAvg. poolingで様々なサイズに変更し、それらを統合した。
複数のデータセットで従来のベースラインよりも良いMAE,RMSEを達成した。