- …
- …
#396
summarized by : いのいち
新規性
複数カメラの情報をCNNで特徴抽出したあと、クロスアテンションを用いて鳥瞰図空間の特徴に織り込んでいる。Deformable attentionを使うことで、カメラ空間の特徴から鳥瞰図空間の特徴位置を割り当てて効率よくAttentionをかかている。さらに、その鳥瞰図空間の直腸ベクトルを時系列として保持することで精度向上を達成している。
結果
nuScenesのテストセットでこれまでよりも9ポイント高い精度を達成している。さらにWaymoの3D物体検出のコンペでも優勝している。
その他(なぜ通ったか?等)
アーキテクチャとして最先端。さらに複数の難易度の高いデータセットで構成度を出している。
https://github.com/fundamentalvision/BEVFormer
- …
- …