#563
summarized by : yasud
Deep High-Resolution Representation Learning for Human Pose Estimation

どんな論文か?

ポーズ推定タスクにおいて、解像度の高い状態を保ったままのメインのネットワークから解像度の低いサブネットワークを段階的に枝分かれさせていくことによって正確な関節のヒートマップを得ることができるHRNetを提案。
placeholder

新規性

従来のネットワークで例えばHourglass構造などでは解像度の低い状態から高い状態に変換するネットワークがある(low-to-high)が、これでは正確なヒートマップを得るのは難しいため、高解像度の状態を保ったままのネットワークを別で持っておく。また、サブネットワークとの結合を定期的に行うことで互いに情報を行き来させている。

結果

MPIIとCOCO keypointタスクにおいてSoTA。PretrainなしのScratch学習でもかなりの精度を残している。

その他(なぜ通ったか?等)

MSRAの論文。新しいネットワーク構造系の論文すごく強いイメージがあります。また、構造自体とてもシンプルでConclusionでは顔認識、物体検出などに応用が期待されると書かれているのでこの構造がデファクトスタンダードになっていくこともありえそうです。