3D Human Pose Estimation in Video With Temporal Convolutions and Semi-Supervised Training

#606

summarized by : yasud

Dario Pavllo, Christoph Feichtenhofer, David Grangier, Michael Auli

どんな論文か？

2Dのキーポイントに対して、時間方向にdilated畳み込みを利用することで3Dのポーズ推定を行うモデルを提案。さらにカメラパラメータのみでラベルを必要としないback-projection(2Dの関節->3Dのポーズ->2Dの関節を結びつけるauto encoderのようなもの)により、半教師学習も可能。なおこの時のキーポイントはDetectronで検出している。

新規性

ヒートマップではなく検出されたキーポイントを使って時間方向にdilated畳み込みをかけることで、少ないパラメータ数で高い精度が達成できるとしている。

結果

Human3.6MとHumanEva-Iで検証。MPJPE(キーポイントごとのGround Truthとの位置のエラーの平均)や、スケール・回転などをalignmentした上でのMPJPE(P-MPJPE, N-MPJPE)においてSoTA

その他（なぜ通ったか？等）

このページで利用されている画像は論文から引用しています．