Back to the Feature: Learning Robust Camera Localization From Pixels To Pose

#684

summarized by : Yusuke Saito

Paul-Edouard Sarlin, Ajaykumar Unagar, Måns Larsson, Hugo Germain, Carl Toft, Viktor Larsson, Marc Pollefeys, Vincent Lepetit, Lars Hammarstrand, Fredrik Kahl, Torsten Sattler

どんな論文か？

3Dカメラ姿勢推定において、入力画像から姿勢や座標などの正確な幾何学的量を回帰させるものが多かった。そこで「特徴に立ち返る」をテーマに、深層ネットワークはロバストな視覚的特徴の学習に注力し、幾何学的推定は原理的なアルゴリズムに任せるべきという考えのもと、ピクセルからカメラ姿勢までのエンドツーエンドの学習を行い、かつモデルのパラメータとシーンのジオメトリを分離するPixLocという手法を提案する。

新規性

- 本研究では、微分可能な姿勢ソルバーを用いて、屋外から屋内までシーンを問わず一般化する形での初のエンド・ツー・エンドの学習可能なネットワークを実証した。 - 疎な測定値から広いベースラインのクロスコンディションでカメラ姿勢を推定するために明示的にトレーニングされている。優れた特徴の学習に重点を置くことで、優れた汎用性を示しながらも、最適化目的を形作る適切なデータプライアを学習する。

結果

- Cambridge Landmarksおよび7Scenesとの比較では、提案手法は SANet(エンドツーエンドのシーン固有でない手法)よりも一貫して優れており、またシーン固有の学習手法よりも性能が良かった。 - 長時間データセットにおいては、提案手法は特に夜間という困難な条件においてESAC(End-to-Endの代表手法)よりも精度が高く、また特徴マッチングの手法と近い結果を示した。

その他（なぜ通ったか？等）

- 学習では特徴の回帰にとどめ、ジオメトリの位相変動は原理的なアルゴリズムにゆだねられており、拡張性の高い姿勢推定アルゴリズムを提案しているという点と、アイデア面から評価されているのではと考えられる。

このページで利用されている画像は論文から引用しています．