Deep High-Resolution Representation Learning for Human Pose Estimation

#563

summarized by : yasud

Ke Sun, Bin Xiao, Dong Liu, Jingdong Wang

どんな論文か？

ポーズ推定タスクにおいて、解像度の高い状態を保ったままのメインのネットワークから解像度の低いサブネットワークを段階的に枝分かれさせていくことによって正確な関節のヒートマップを得ることができるHRNetを提案。

新規性

従来のネットワークで例えばHourglass構造などでは解像度の低い状態から高い状態に変換するネットワークがある(low-to-high)が、これでは正確なヒートマップを得るのは難しいため、高解像度の状態を保ったままのネットワークを別で持っておく。また、サブネットワークとの結合を定期的に行うことで互いに情報を行き来させている。

結果

MPIIとCOCO keypointタスクにおいてSoTA。PretrainなしのScratch学習でもかなりの精度を残している。

その他（なぜ通ったか？等）

MSRAの論文。新しいネットワーク構造系の論文すごく強いイメージがあります。また、構造自体とてもシンプルでConclusionでは顔認識、物体検出などに応用が期待されると書かれているのでこの構造がデファクトスタンダードになっていくこともありえそうです。

このページで利用されている画像は論文から引用しています．