#821
summarized by : Takuma Yagi
Neural RGB(r)D Sensing: Depth and Uncertainty From a Video Camera

どんな論文か?

単眼のRGB映像(≠画像)から深度とその確信度を推定する研究。RGB映像および正確な姿勢情報が与えられた際、フレーム毎の推定深度を前後フレームの情報も利用しつつ逐次的に更新し、計測誤差を確信度の形で出力する手法を提案。
placeholder

新規性

複数フレームを使用できる設定において各フレームからの深度推定を統合し、確率分布として出力・学習する深層学習ベースの枠組みの提案。ベイジアンフィルタの枠組みを応用した、end-to-endで学習可能な逐次的更新法の提案。

結果

フレーム間のカメラ姿勢が既知であるという仮定の元、屋内外の単眼深度推定タスクで最高性能。カメラ姿勢をVisual Odometryで推定した場合でも先行手法にほぼ匹敵。データセット間の転移も良く、確信度の低い領域に後処理を施すことで結果が改善できることも実証。

その他(なぜ通ったか?等)

深層学習ベースのVOの基礎となる研究。SfMが苦手な不確定性を上手く扱えており、実用的な価値も期待できる。