D3VO: Deep Depth, Deep Pose and Deep Uncertainty for Monocular Visual Odometry

#203

summarized by : Pavel Savkin

Nan Yang, Lukas von Stumberg, Rui Wang, Daniel Cremers

どんな論文か？

ニューラルネットは様々な領域で威力を発揮しているが、SLAMやVOは依然として幾何学的数値最適化が強い。これはニューラルネットの活用方法が深度情報等の利用にとどまるからで、さらに単眼SLAMは基本的にステレオやIMUを利用したものには勝てない。本提案では深度推定そのものを改善し、他にフォトメトリックパラメタ推定・不確実性推定・及び姿勢推定も一度に行うことで、大幅な精度改善を実現する。

新規性

1. 不確実性、姿勢推定も同時に行うことで、ステレオやIMUを用いた手法と同等のパフォーマンスを出した点 2. フォトメトリックパラメタ推定を導入することで、Unsupervisedな深度推定そのものの精度を改善した点 3. Ablation Studyにより、不確実性、姿勢推定、フォトメトリックパラメタ推定のそれぞれの優位性を実証した点

結果

1. Unsupervised深度推定のパフォーマンスにおいて、MonoDepth2に比べ精度を大幅に向上させ、さらに正解データありのものと同等のパフォーマンスを出した 2. VOのパフォーマンスにおいて、Mono+IMUベースのパフォーマンスを凌駕するとともに、部分的にStereoベースの手法も精度で勝った

その他（なぜ通ったか？等）

1. 単眼VOの順当進化で、マルチモーダル情報を使い、またフォトメトリックパラメタ推定等の既存のSLAMで行われる手法をもニューラルネットの推定に組み込んで単眼VOの精度を大幅に向上させた点 2. それにとどまらず、結果的にUnsupervised深度推定そのものの精度向上にも寄与した点 3.すでにあるVO（今回はDSO)と組み合わせ、それぞれのいいところどりを実現した点が通った理由と考える。

このページで利用されている画像は論文から引用しています．