Learning 3D Object Shape and Layout Without 3D Supervision

#538

summarized by : Naoya Chiba

Georgia Gkioxari; Nikhila Ravi; Justin Johnson

どんな論文か？

2Dのマルチビュー画像を用いて直接3Dの教師信号無しで物体形状とシーンのレイアウトを学習する手法の提案．多様で大規模なデータが収集できることから，少数データしか利用できない3Dのアノテーション付きデータセットを用いるよりも高い性能を達成できる．

新規性

3Dの教師信号が不要になるよう，検出された各物体についてメッシュを再構成してから多視点でレンダリングして，各視点でのシルエットを比較することで学習する．Mesh R-CNNにRoIMap（アスペクト比を維持して特徴をメッシュに伝搬する）とlayout head（奥行きを予測してメッシュに伝搬する）工夫も導入．

結果

Scene-ShapeNet，Hypersim，ScanNetのシーンデータセットで検証．提案法によって3Dの教師信号無しで形状とレイアウトをうまく推定できており，各提案要素も性能に寄与することを確認した．

その他（なぜ通ったか？等）

このページで利用されている画像は論文から引用しています．