#27
summarized by : Naoya Chiba
Lift, Splat, Shoot: Encoding Images from Arbitrary Camera Rigs by Implicitly Unprojecting to 3D

どんな論文か?

自動運転車を想定し,Implicitに複数のカメラを一つのBEVに統合する手法(Lift, Splat, Shoot)を提案.各カメラ画像を錐台にLiftしてからBEV上にSplat,軌跡の候補をShootすることで軌跡候補に対応するコストを推定し,モーションプランニングまで行う.画像はEfficientNets,BEV表現はPointPillarsのネットワークを用いる.
placeholder

新規性

各カメラ画像のピクセルに対応する光線を考え,Depth方向にたいして曖昧さを許す形で各点の三次元座標を推定する.各カメラ画像に対応する錐台での点群を統合してBEVにする.さらにBEV上での軌跡候補点を規定しておき,これらの点でのコストをサンプリングして集約することでNeural Motion Plannerの発想で軌道計画までEnd-to-Endで学習できる.

結果

nuScenesとLyft Level 5データセットで学習・評価.集約部分の高速化のためOFTで導入されたcumsum trickを用いた.セグメンテーション結果は既存手法よりも良好で,カメラの欠損を用いた学習・評価で容易にロバスト化できることも示した.ただしLiDAR点群を用いる手法(PointPillars)とは異なりカメラ画像のみを用いるため,夜間の性能が有意に低下した.

その他(なぜ通ったか?等)

Volumetricな表現をImplicitな表現で置き換えるという最近の動向を自動運転/BEVの文脈にうまく応用した.