#518
summarized by : Yusuke Saito
Learning To Recover 3D Scene Shape From a Single Image

どんな論文か?

単眼での深度推定および点群再構成について、学習データに混合データを使うことで生じる、未知の奥行きシフトや未知のカメラ焦点距離に着目していなかった。 まず、単一の単眼画像から未知のスケールとシフトまでの奥行きを事前に予測し、次に3D点群エンコーダーを用いて、現実的な3Dシーンの形状を復元するために必要な、不足している奥行きのシフトと焦点距離を予測するという2段階のフレームワークを提案する。
placeholder

新規性

シーン形状の歪みや焦点距離を考慮するため、深度予測モジュールと点群再構成モジュールで構成される新しい単眼シーン形状推定フレームワークを提案する。学習時、正解の深度の形状を用いることでドメインギャップの問題が大幅に軽減される。

結果

定性的にみて、MegaDepthやMiDaSといったSOTAの手法と比較しても、特に屋外での深度をうまく再現していることがわかる。また定量的には、9つゼロショット(学習時に見ていないもの)データセットにおいて,SOTAを実現している。

その他(なぜ通ったか?等)

- Depthセンサによる点群の形状が、データが少ないながらも、学習時のドメインギャップを削減できることを示した点 - 焦点距離を学習および推定に考慮することで、複数データセットを扱う際の歪みなどをきちんと補正できる点 - また、複数のデータセットでSOTAを実現している点