What You See is What You Get: Exploiting Visibility for 3D Object Detection

#253

summarized by : Higaki Yoshinari

Peiyun Hu, Jason Ziglar, David Held, Deva Ramanan

どんな論文か？

車載センシングにおいてLiDAR(Light Detection and Ranging)によって得られる点群は厳密な3D情報ではなく、センサの死角の情報が欠損している。従来は、物体検出の観点でvisibilityの活用が不十分。本研究ではこの課題に対し、visibilityの定量化方法として新しいraycastingアルゴリズムを導入し、voxelベースのvisibility表現を得る。

新規性

(1)先行研究と同様に、学習データに頻度の低いクラスのobjectを追加するaugmentationを行う。この時死角を正しく再現するために、計算効率性が工夫された新規のraycastingアルゴリズムを用いる。 (2)1時刻のvisibilityを時系列のコンテクスト情報に変換するために、SOTAの3D検出器PointPillarsをTwo-stream Networkに組み込む。

結果

NuScenesデータセットの3D detectionタスクにおいて、SOTAのPointPillarsに対しmAPが4.5ポイント向上。 Ablation studyでは、Temporal aggregation（複数フレーム積算）の寄与が最も大きく、mAP9.4ポイント向上。続いて新規のaugmentationにより2.7ポイント向上。

その他（なぜ通ったか？等）

LiDARの情報が真の3Dではなく2.5D（occlusionをもつ）である課題に対しvisibilityの観点から取り組んだ着眼点の新規性、計算効率も考慮した実行可能性、既存の手法（PointPillars、Octomap等）と新規のraycastingのアルゴリズムが効果的に統合されている点、が評価のポイントと考える。

このページで利用されている画像は論文から引用しています．