UniPose: Unified Human Pose Estimation in Single Images and Videos

#690

summarized by : a2kiti

Bruno Artacho, Andreas Savakis

どんな論文か？

セマンティックセグメンテーションで広い視野を得るために利用される、 Atrous Convolutionを組み合わせたWaterfall Atrous Spatial Pooling (WASP) moduleを使った人物ポーズ推定のためのアーキテクチャーを提案。

新規性

2Dポーズ推定タスクにWASPを導入しSOTA。高解像度で入力して関節の位置と人物のバウンディングボックスのヒートマップを同時に出力。ヒートマップをLSTMに入力することによる動画への対応も実証。

結果

単一画像入力について、LSPとMPIIデータセットにおいてPCKを評価指標として比較し、他手法を上回る精度を達成。ビデオ入力について、PennActionデータセットにおいてPCKを評価し、他手法を上回る精度を達成。入力フレーム数についても評価し、LSTMに5フレーム入力するのが精度とメモリ効率のバランス的に良いことがわかった。

その他（なぜ通ったか？等）

このページで利用されている画像は論文から引用しています．