Monocular 3D Object Detection with Depth from Motion

#12

summarized by : Haruhi Shida

Tai Wang; Jiangmiao Pang; Dahua Lin

どんな論文か？

動画からの単眼3D物体検出のための新しいフレームワークを提案．時間的に近い画像ペアから取得した2次元画像の特徴を深度推定モジュールによって3D空間に持ち上げて3D物体を検出する．KITTIで行った実験ではすべてのベンチマークで高い精度を達成した．

新規性

エゴモーションによって形成されるステレオ形状から物体の奥行き推定と3D検出を改善する方法を初めて研究した．また問題について理論的な解析を行って，「単眼の時間的に近い2枚の画像からの奥行き推定は多くの推定を伴い，累積誤差に喜井する根本的に困難である」ということを示した．またDepth-from-motionを用いて問題が解決可能であることを示し，高精度な物体検出フレームワークを提案した．

結果

KITTIベンチマークで評価．単眼推定において1位を獲得．3次元車両検出ベンチマークで2.6% ~ 5.6%，鶏俯瞰図車両検出ベンチマークで4.2% ~ 7.5%高く従来の手法を大きく凌駕している．添付した画像はKITTIでの実験結果をまとめたもの

その他（なぜ通ったか？等）

【議論部分】移動物体のステレオ推定を単眼動画からどのように行うのか ? 【Project Pageへのリンク】 https://github.com/Tai-Wang/Depth-from-Motion

このページで利用されている画像は論文から引用しています．