#532
summarized by : Kosuke Fuazawa
Capturing and Inferring Dense Full-Body Human-Scene Contact

どんな論文か?

単眼画像から人物と静的シーンの接触(Human Scene Contact: HSC)を推論する研究.画像から直接HSCを推論するBSTROを提案.また,公開されたデータセットRICHはシーンのスキャンとマルチビュー姿勢推定によって,SMPLの頂点単位での接触情報をもつ.
placeholder

新規性

画像から直接HSCを推論するのが初.このモデルは単眼画像から取得できるシーンの情報をもとに,観測が不可能な接触情報を予測するTransformer構造をもつ.入力には画像特徴量に頂点情報を与えるPositional Encodingを加え,各頂点の接触確率を出力する.

結果

最先端のHSC推定手法のPOSAや足裏の接触ラベルを予測するHuMoRと比較.POSAは姿勢推定も必要であるが,姿勢推定部分をGTの情報で補った場合でも,precision,F1などで既存手法を上回る.

その他(なぜ通ったか?等)

https://github.com/paulchhuang/bstro 純粋にデータセットの貢献も大きいと思われる.