Homogeneous Multi-modal Feature Fusion and Interaction for 3D Object Detection

#92

summarized by : Haruhi Shida

Xin Li; Botian Shi; Yuenan Hou; Xingjiao Wu; Tianlong Ma; Yikang Li; Liang He

どんな論文か？

既存手法でLidar特徴と画像特徴を融合させた際に発生する深刻な情報損失を解決スべき課題として定義．解決には画像と点群の特徴を同質な構造で融合，2つの同質な特徴間のオブジェクトレベルの意味情報の整合性を矯正する3D検出が求められるとし，本論文では点群と画像の間の均質なマルチモーダル特徴融合・相互作用法 HMFIを提案した．

新規性

既存の2D画像に投影されたLidar点群特徴と画像特徴を融合させる手法や，疎な点群と高密度画像ピクセルを融合させる手法は深刻な情報損失を引き起こし，最適な手法とはいえなかった．本論文では，2D画像を元に点群ボクセル特徴と同質の画像ボクセル特徴を生成し各特徴を選択的に結合することで融合時の深刻な情報損失を回避，問題を解決した．

結果

KITTIとWaymo Open Datasaetで行った広範な実験により，提案手法 HMFIによって大幅な性能向上が得られることが示された．(添付画像) 特にKITTIベンチマークにおけるサイクリストの検出ですべての公開アルゴリズムを大きく上回る性能を達成している．

その他（なぜ通ったか？等）

このページで利用されている画像は論文から引用しています．