#203
summarized by : Pavel Savkin
D3VO: Deep Depth, Deep Pose and Deep Uncertainty for Monocular Visual Odometry

どんな論文か?

ニューラルネットは様々な領域で威力を発揮しているが、SLAMやVOは依然として幾何学的数値最適化が強い。これはニューラルネットの活用方法が深度情報等の利用にとどまるからで、さらに単眼SLAMは基本的にステレオやIMUを利用したものには勝てない。本提案では深度推定そのものを改善し、他にフォトメトリックパラメタ推定・不確実性推定・及び姿勢推定も一度に行うことで、大幅な精度改善を実現する。
placeholder

新規性

1. 不確実性、姿勢推定も同時に行うことで、ステレオやIMUを用いた手法と同等のパフォーマンスを出した点 2. フォトメトリックパラメタ推定を導入することで、Unsupervisedな深度推定そのものの精度を改善した点 3. Ablation Studyにより、不確実性、姿勢推定、フォトメトリックパラメタ推定のそれぞれの優位性を実証した点

結果

1. Unsupervised深度推定のパフォーマンスにおいて、MonoDepth2に比べ精度を大幅に向上させ、さらに正解データありのものと同等のパフォーマンスを出した 2. VOのパフォーマンスにおいて、Mono+IMUベースのパフォーマンスを凌駕するとともに、部分的にStereoベースの手法も精度で勝った

その他(なぜ通ったか?等)

1. 単眼VOの順当進化で、マルチモーダル情報を使い、またフォトメトリックパラメタ推定等の既存のSLAMで行われる手法をもニューラルネットの推定に組み込んで単眼VOの精度を大幅に向上させた点 2. それにとどまらず、結果的にUnsupervised深度推定そのものの精度向上にも寄与した点 3.すでにあるVO(今回はDSO)と組み合わせ、それぞれのいいところどりを実現した点 が通った理由と考える。