#606
summarized by : yasud
3D Human Pose Estimation in Video With Temporal Convolutions and Semi-Supervised Training

どんな論文か?

2Dのキーポイントに対して、時間方向にdilated畳み込みを利用することで3Dのポーズ推定を行うモデルを提案。さらにカメラパラメータのみでラベルを必要としないback-projection(2Dの関節->3Dのポーズ->2Dの関節を結びつけるauto encoderのようなもの)により、半教師学習も可能。なおこの時のキーポイントはDetectronで検出している。
placeholder

新規性

ヒートマップではなく検出されたキーポイントを使って時間方向にdilated畳み込みをかけることで、少ないパラメータ数で高い精度が達成できるとしている。

結果

Human3.6MとHumanEva-Iで検証。MPJPE(キーポイントごとのGround Truthとの位置のエラーの平均)や、スケール・回転などをalignmentした上でのMPJPE(P-MPJPE, N-MPJPE)においてSoTA

その他(なぜ通ったか?等)