Single-Image Depth Prediction Makes Feature Matching Easier

#77

summarized by : Teppei Kurita

Carl Toft, Daniyar Turmukhambetov, Torsten Sattler, Fredrik Kahl, Gabriel J. Brostow

どんな論文か？

単眼RGB画像からCNNベースでDepth推定をするによって透視投影の歪みを解消することでSIFTやBRISK等の特徴量を利用した画像間のマッチングが劇的に改善することを示した。Limitationは平面構造が画像の十分な割合を占めている事。

新規性

問題設定がまず新しい。アプローチの全体像としては、Depth推定を行ったあとにカメラの固有パラメータを使い3次元空間に投影し各画素で表面法線を計算する。法線は３つの直交する方向にクラスタ化→各クラスタでホモグラフィ変換され透視投影の歪みを解消。その後に一般的な特徴抽出器で画像特徴量を抽出して、元の画像に戻す。

結果

独自にデータセットを作り、視点が大きく変化した場合の特徴量マッチングの性能評価を行い、マッチング性能の向上を確認。性能的なボトルネックは当然単眼Depth推定で、推定が間違うとよろしくない。Depth推定の信頼度はカメラからシーンの距離に応じて2次的に減少するので、遠いほど信頼性が落ちる。

その他（なぜ通ったか？等）

非常にシンプルな考えだが幅広く応用可能。

このページで利用されている画像は論文から引用しています．