#560
summarized by : Naoya Chiba
3D Object Detection With Pointformer

どんな論文か?

点群ベースの物体検出手法としてTransformerを点群に応用したPointformerを提案した.これはLocal TransformerとGlobal Transformerからなり,それぞれオブジェクト単位・シーン単位での特徴を学習,さらにマルチスケールなAttentionをもたせることで広い解像度からの情報を集約できるように設計.特徴抽出後は座標をリファインし物体中心を精度よく推定する.
placeholder

新規性

TransformerのAttention機構をマルチスケールな点群に利用し点群畳み込みを行うことで効率よく特徴量を集約できるように設計した.さらにFPSでサブサンプリングされた点をもとにリファインすることで,物体中心に近づくように学習する.位置エンコーディングは相対座標で行う.点数に応じて増える計算コストを抑えるため,Linformerでの低ランク近似を用いたモデルを利用した.

結果

SUN RGB-DとScanNet V2,KITTI,nuScenesで検証.既存手法のよりも高い性能を達成した.加えて提案するAttention機構,リファインメント機構と位置エンコーディングがいずれも性能改善に起用していることを確認している.

その他(なぜ通ったか?等)