Learning Depth-Guided Convolutions for Monocular 3D Object Detection

#716

summarized by : 福沢　栄治

Mingyu Ding, Yuqi Huo, Hongwei Yi, Zhe Wang, Jianping Shi, Zhiwu Lu, Ping Luo

どんな論文か？

単眼カメラから三次元物体認識は重要な課題で、従来の手法としては正確な深度情報がないため、困難なタスクです。この課題を解決するため、この論文でDepth-guided Dynamic-Depthwise-Dilated LCN (D4LCN)という新しいローカル畳み込みネットワーク（LCN）を提案しました。

新規性

単眼カメラから深度マップが動的な深度拡張ローカル畳み込みニューラルネットワークで学習することにより3Dオブジェクトを検出する。D4LCNは深度マップをガイダンスとして扱い、2D表現と3D表現の間のギャップを埋めるために、RGB画像から動的な深さ方向に拡張されたローカルカーネルを学習します。

結果

広範な実験により、D4LCNは既存の手法よろ精度が大幅に上回っています。KITTIのデータセットで9.1％の精度が上げました。D4LCNは提出する時（2019年12月）にKITTIの単眼3Dオブジェクト検出ベンチマークで1位にランクされています。

その他（なぜ通ったか？等）

このページで利用されている画像は論文から引用しています．