Total3DUnderstanding: Joint Layout, Object Pose and Mesh Reconstruction for Indoor Scenes From a Single Image

#56

summarized by : yusuke saito

Yinyu Nie, Xiaoguang Han, Shihui Guo, Yujian Zheng, Jian Chang, Jian Jun Zhang

どんな論文か？

奥行き知覚に内在する曖昧さ、現実世界の環境の乱雑さと複雑さから、1枚の画像から3Dのシーンコンテキスト（意味論と幾何学の両方）を完全に復元することはまだ困難である。そこで、理解と再構成のギャップを埋めるように、1枚の画像から部屋の間取り、オブジェクトのBoundingBox、3D形状を同時に再構成するEnd-to-Endな手法を提案する。

新規性

3Dシーン再構成のために、屋内レイアウト推定、3Dオブジェクト検出、3DMesh再構成の機能を、それぞれを別に扱うのではなく、End-To-Endに扱う学習手法を確立している点。

結果

SUN RGB-DとPix3Dのデータセットを用いた実験により、本手法は屋内レイアウトの推定、3Dオブジェクトの検出、メッシュの再構成において、それぞれが既存研究よりもよい性能を示した。また、アブレーション解析によって、シーン全体の再構成のために必要な要素が実際に絡み合っていることを実証した。これにより、本研究がシーン全体の理解に向けた共同再構成が実現可能な解決策であることを示した。

その他（なぜ通ったか？等）

シーンレイアウトを認識する際に、それぞれを別に扱うのではなく、End-To-Endに扱う学習手法を確立している点を実現させたことがインパクト強いのかなと認識しています。

このページで利用されている画像は論文から引用しています．