FCPose: Fully Convolutional Multi-Person Pose Estimation With Dynamic Instance-Aware Convolutions

#178

summarized by : Masanori YANO

Weian Mao, Zhi Tian, Xinlong Wang, Chunhua Shen

どんな論文か？

アンカーフリーの物体検出のFCOSをベースとして、画像に映った複数の人物の姿勢推定タスクを解く手法。

新規性

FCOSをベースに、人物のインスタンスを意識したキーポイントごとのヒートマップを生成し、入力サイズにおけるオフセットを回帰で求めるKeypoint Refinement Moduleと組み合わせて姿勢推定を行うFCPoseを提案した。なお、FCOSはアンカーフリーであるが、FCOSもFCPoseもNMSフリーではなく、NMSを使用している。

結果

COCOデータセットで、ImageNet Pre-trainedのResNet及びDLAをバックボーンに使用し、速度と精度のトレードオフで見たときに従来手法を上回る結果。特に、DLA-34がバックボーンのときの推論時間は24ミリ秒で、ボトムアップの従来手法より高速かつ同等の精度。

その他（なぜ通ったか？等）

End-to-Endの学習が可能で、特に速度の面で優位性を示したため通ったと考えられる。なお、実装については、オーストラリアのアデレード大学の研究グループによるAdelaiDet( https://github.com/aim-uofa/AdelaiDet/ )で利用可能と論文にあるが、現時点では「to be released」との記載。

このページで利用されている画像は論文から引用しています．