#114
summarized by : Kouhei Sekiguchi
CramNet: Camera-Radar Fusion with Ray-Constrained Cross-Attention for Robust 3D Object Detection

どんな論文か?

カメラ画像とradar観測(radar frequency image)を入力として3D物体検出を行う。学習には正解3D Bounding Boxと(画像の深度推定の正解として使うための)Lidar点群が必要。 画像に対して深度推定と2D物体検出を行い、物体がありそうなピクセルの3次元位置を求める。radar点は高さをセンサと同じ高さと仮定して同じ空間に配置し、その点群を使って3D物体検出を行う。
placeholder

新規性

カメラの深度推定の精度向上のためにradar点の情報を用いる方法を提案。まず各ピクセルごとにDNNで深度の初期値を推定し、3D点を求める。その点の付近のradar点の特徴量とその点の画像特徴量との類似度を計算し、radar点の深度を類似度に応じて重み付けし深度を計算する。

結果

カメラとRadarを統合した手法は数が少ないためか他手法との比較はあまりなかった。この手法はカメラ単体、Radar単体でも動かすことができ、両方を用いた場合の性能は単体より大きく向上した。

その他(なぜ通ったか?等)