Holistic 3D Scene Understanding From a Single Image With Implicit Representation

#625

summarized by : Naoya Chiba

Cheng Zhang, Zhaopeng Cui, Yinda Zhang, Bing Zeng, Marc Pollefeys, Shuaicheng Liu

どんな論文か？

単眼RGB画像から室内シーンの三次元理解を行うための手法の提案．入力されたRGB画像から物体検出を行い，物体ごと・シーン全体それぞれについて特徴量を計算する．物体ごとに紐付いた形状・姿勢を示す特徴量と部屋のレイアウトを示す特徴量からシーングラフを作成し，GCNで処理，レイアウトと物体位置・姿勢，物体ごとの形状を出力する．

新規性

単眼RGB画像から室内シーンを理解し，レイアウト，物体姿勢とともに物体ごとのSDFによるImplicit Representationによる三次元形状を推定する点が新規．物体姿勢推定と形状推定についてのロスに加え，シーン中の物体同士が食い込まないことを期待するロスを導入し同時最適化を促す．

結果

Total3DUnderstandingに従ったデータで学習・評価．物体再構成，物体検出，レイアウト推定，カメラポーズ推定の各タスクについて精度が高いことを示した上で，シーン全体の理解ができていることをTotal3DUnderstandingと比較．正解データがないため定量的な評価は難しいが，交差点が減少しており整合性のあるシーン理解となっていることを示した．

その他（なぜ通ったか？等）

このページで利用されている画像は論文から引用しています．