#418
summarized by : 角田良太朗
Multi-View Depth Estimation by Fusing Single-View Depth Probability With Multi-View Geometry

どんな論文か?

single-view及びmulti-viewのdepth推論結果を組み合わせることで、multi-viewの幾何学的マッチングがテクスチャレス、反射面で弱い問題を克服する。具体的には各フレーム独立に単眼depth推定でdepth値の平均分散を推論し、それらを既知のカメラパラメータでワープし、cost_volume構成時に外れ値的な分布を除く。これから平均分散の残差を求めて加算することを繰り返す。
placeholder

新規性

単眼depthで当たりをつけたdepth値周辺に限定してdepth候補値を選択しcost_volumeを立てるため、従来のmulti-view手法に比べてcost_volumeのサイズがかなり小さい。実際メモリ使用量が半減、学習速度が倍になっている。また単眼depthベースなのでcost_volumeが大きく間違った結果を拾うことがなくロバスト。

結果

ScanNet/7-Scenes/KITTIでSOTA性能。反射面と動物体に対しても正しい推論ができていることを定性的に確認している。

その他(なぜ通ったか?等)

論文中のFig.5で単眼depthの結果が既にかなり良い値を出しているのが気になる。単眼depthは原理的にスケール不定性があるにも関わらず本論文では実距離を推論させているので、単眼depthの推論モジュールが学習データにoverfittingしているのではないか?実際著者も論文中でドメインシフトに弱いことを記載しているので、実用面では汎用性に欠けそう。カメラパラがポーズ含め既知という仮定も辛い。