#59
summarized by : shirouchi satoshi
D2-Net: A Trainable CNN for Joint Description and Detection of Local Features

どんな論文か?

撮影位置、状況が違う画像のピクセルレベルの対応関係のマッチングを目的とした研究では、画像の中のkey pointを検出し、その点付近から特徴を作りマッチングする。季節や昼夜が変わる場合、Key pointの検出に悪影響を与える問題がある。検出は早い段階で行うため、低レベルな情報に基づくから。そこで検出に高レベルな情報を使いかつ省メモリにするため、検出とマッチングを同時に行うのが本研究の提案。
placeholder

新規性

検出と特徴の作成を同時に行う。早期に検出を行わないことで、浅い層の低レベルの情報でなく、深い層から高レベルな情報を使用する。古典的な疎な特徴を使うアプローチと比較すると効率は悪くなるが、提案手法は一度CNNに通すだけで高レベルな情報に基づいた検出と記述が行え、省メモリ。画像をCNNに通して3次元のテンソルにし、画像全体を表す2軸から検出を行い、特徴には残りの一軸のベクトルを使用する。

結果

昼の画像で構築した3Dモデルに対して夜の画像をとった姿勢を推定するAachenデータセットにおいて、密なCNN特徴を作るDenseSfMと比較すると、省メモリで、精度も向上。家具や照明が変化している家の中で、写真をとった姿勢を推定するInLocデータセットにおいては、既存の手法に提案手法を加えることで、精度が向上する。つまり、提案手法は既存手法では推定できていない難しい画像の姿勢も推定できている。

その他(なぜ通ったか?等)