#713
summarized by : Naoya Chiba
End-to-End Human Pose and Mesh Reconstruction with Transformers

どんな論文か?

単眼RGB画像から人物姿勢とメッシュを再構成する手法の提案.Transformerを用いてメッシュ頂点同士,メッシュ頂点と関節についてのAttentionを導入,SMPLなどのパラメトリックなモデルではなく関節位置とメッシュ頂点を直接出力する.このため手の姿勢推定などにもそのまま応用できる.頂点をマスクして学習することでオクルージョンにロバストな姿勢推定を実現している.
placeholder

新規性

ノンパラメトリックな姿勢・形状推定にTransformerを導入しロバストな姿勢推定を実現した.CNNで特徴抽出後,得られた画像特徴量と合わせてテンプレート姿勢のメッシュ頂点,関節位置をクエリとして入力し,各頂点・関節に対応する三次元座標を出力する.このとき入力をランダムにマスクすることでオクルージョンを再現し,姿勢推定をロバストに行えるように学習する.

結果

Human3.6Mと3DPWで学習・評価し精度の良い推定ができていることを示した.また,マスクの有効性の確認,Attentionの可視化と,FreiHANDデータセットで手の姿勢推定に応用できることを紹介している.

その他(なぜ通ったか?等)