Towards Generalization Across Depth for Monocular 3D Object Detection

#199

summarized by : Naoya Chiba

Andrea Simonelli, Samuel Rota Buló, Lorenzo Porzi, Elisa Ricci, Peter Kontschieder

どんな論文か？

車載単眼カメラ画像を用いた三次元物体検出手法の提案．カメラ画像から複数の仮想カメラ画像を生成しそれぞれで物体検出してから統合することで，元のカメラ画像上での大きさによらず物体検出ができる．2D/3Dでのバウンディングボックスを同時に推定するように学習する．

新規性

単眼カメラによる物体検出では，視点との関係で同じ種類の物体でも映る大きさが変化する．この問題を解決するためにカメラ画像の一部領域を切り出し，その領域に対応したスケールの物体のみ検出するように学習，検出した物体を元のカメラ画像での位置・スケールに合わせて統合することで様々な距離の物体を同一のネットワークで検出可能にした．

結果

KITTIで学習・評価．各種RGB画像を用いる手法，RGB+LiDARを用いる手法と比較してSoTAを達成．

その他（なぜ通ったか？等）

このページで利用されている画像は論文から引用しています．