DeepFusion: Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection

#89

summarized by : Anonymous

Yingwei Li; Adams Wei Yu; Tianjian Meng; Ben Caine; Jiquan Ngiam; Daiyi Peng; Junyang Shen; Yifeng Lu; Denny Zhou; Quoc V. Le; Alan Yuille; Mingxing Tan

どんな論文か？

マルチモーダルな処理を行う3Dオブジェクト検出の深層学習モデルに対して、中間層の画像特徴と点群特徴を統合する手段の提案した。従来の手法に対して、1)データ拡張時の画像上のピクセルと点群上の点との対応付けと2)点群特徴と画像特徴の結合に改善の余地があるとしている。

新規性

提案はInverseAugとLearnableAlignの二つである。InverseAugはデータ拡張時の手法であり，特徴統合する際の拡張された点群の点と画像のピクセルの対応付けのズレを軽減する手法である。一方で、LearnableAlignは深層学習モデル内で点群特徴と画像特徴を統合するcross-attention機構であり、点群及び画像特徴間の相関に従った学習することを目的としている。

結果

Waymo Open Dataset Challengeの3D Detection Leader boardでSOTA (2022/03/15当時)

その他（なぜ通ったか？等）

このページで利用されている画像は論文から引用しています．