COIN: A Large-Scale Dataset for Comprehensive Instructional Video Analysis

#246

summarized by : Hiromasa Sakata

Yansong Tang, Dajun Ding, Yongming Rao, Yu Zheng, Danyang Zhang, Lili Zhao, Jiwen Lu, Jie Zhou

画像中に写っている人数をカウントするcrowd counting において, 人同士が近接している場所で, 再帰的に画像にズームを行っていくRecurrent Attention Zooming Networkの提案. UCF-QNRF などの複数のベンチマークで既存手法を上回るスコアを出した.

画像のLocalization タスクとcrowd counting タスクが再帰的に解かれお互いの精度を向上に貢献するようなネットワークを設計した.

UCF-QNRF などのベンチマークで, 既存手法を上回るスコアを出した. また, counting タスクとlocalizationタスクの組み合わせがスコア向上に寄与することを示した.

このページで利用されている画像は論文から引用しています．