#690
summarized by : a2kiti
UniPose: Unified Human Pose Estimation in Single Images and Videos

どんな論文か?

セマンティックセグメンテーションで広い視野を得るために利用される、 Atrous Convolutionを組み合わせたWaterfall Atrous Spatial Pooling (WASP) moduleを使った人物ポーズ推定のためのアーキテクチャーを提案。
placeholder

新規性

2Dポーズ推定タスクにWASPを導入しSOTA。 高解像度で入力して関節の位置と人物のバウンディングボックスのヒートマップを同時に出力。 ヒートマップをLSTMに入力することによる動画への対応も実証。

結果

単一画像入力について、LSPとMPIIデータセットにおいてPCKを評価指標として比較し、他手法を上回る精度を達成。 ビデオ入力について、PennActionデータセットにおいてPCKを評価し、他手法を上回る精度を達成。 入力フレーム数についても評価し、LSTMに5フレーム入力するのが精度とメモリ効率のバランス的に良いことがわかった。

その他(なぜ通ったか?等)