BEVFormer: Learning Bird’s-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers

#396

summarized by : いのいち

Zhiqi Li; Wenhai Wang; Hongyang Li; Enze Xie; Chonghao Sima; Tong Lu; Yu Qiao; Jifeng Dai

どんな論文か？

自動運転の3D物体検出＆マップセグメンテーション。複数カメラの入力を受けて、そこから自動運転車の周囲の物体の位置やマップを認識するモデルを提案している。

新規性

複数カメラの情報をCNNで特徴抽出したあと、クロスアテンションを用いて鳥瞰図空間の特徴に織り込んでいる。Deformable attentionを使うことで、カメラ空間の特徴から鳥瞰図空間の特徴位置を割り当てて効率よくAttentionをかかている。さらに、その鳥瞰図空間の直腸ベクトルを時系列として保持することで精度向上を達成している。

結果

nuScenesのテストセットでこれまでよりも9ポイント高い精度を達成している。さらにWaymoの3D物体検出のコンペでも優勝している。

その他（なぜ通ったか？等）

アーキテクチャとして最先端。さらに複数の難易度の高いデータセットで構成度を出している。 https://github.com/fundamentalvision/BEVFormer

このページで利用されている画像は論文から引用しています．