SimpleRecon: 3D Reconstruction without 3D Convolutions

#43

summarized by : 角田良太朗

Mohamed Sayed; John Gibson; Jamie Watson; Victor Prisacariu; Michael Firman; Clément Godard

どんな論文か？

MultiViewStereoによるdepth推定は3DConvやLSTM等の重い計算が近年の主流となっていたが、画像のメタデータをCostVolumeに付与することで2DConvのみでも十分な精度が達成できることを実証。

新規性

CxDxHxWの４次元特徴テンソルに対して各３次元点ごとに、カメラ中心からのray方向、カメラからの距離、refカメラとqueryカメラのrayの角度および相対ポーズ、validity maskを添加した上でMLPにより３次元cost volumeにまとめる。これをdecoderに通してマルチスケールでのdepth推論結果を得る。

結果

ScanNetV2および7-Scenesの室内データを用いたdepth推定および３次元再構成による評価を行い、既存手法と同等かそれを上回る精度を達成。尚且つ推論時間の短縮も示している。

その他（なぜ通ったか？等）

新規性はメタデータの付与に限る。ただし定性評価でエッジの出方がかなり良く、これはEigenのロスではなくabsolute log depthをロスに取ったことによるものではと推測する。ScanNetV2で学習した結果が7-Scenesでも汎化しているので、後者の方が理論的には筋が良くないものの結果的には優れているのかもしれない。

このページで利用されている画像は論文から引用しています．