#167
summarized by : Naoya Chiba
Voxel Set Transformer: A Set-to-Set Approach to 3D Object Detection From Point Clouds

どんな論文か?

点群から物体検出を行うためのTransformerを用いた手法VoXSeTの提案.点群の各点を対象としてTransformerを適用すると二乗の計算量となってしまうため,Cross-Attentionと全結合ネットワークの組み合わせで近似するテクニックを利用.Soft Poolingを行ってBEVに変換後2D CNNで処理する.
placeholder

新規性

ボクセルベースのSet-Attention構造のネットワークを提案.潜在ベクトルとクエリとしてAttentionを行い,集約したベクトルについて畳み込みを行ってから入力特徴量でクエリすることで元の要素数のベクトルに戻す.このとき特徴量空間で畳み込みを行うことで特徴量空間での入力ベクトル間で相互に情報がやりとりされる.

結果

KITTIデータセットとWaymoデータセットで実験し優れた物体検出性能を達成.Ablation Studyとして提案した畳み込みモジュールの有効性の比較,潜在ベクトル次元のと性能の評価,実行コスト,Attentionの可視化を行い報告.

その他(なぜ通ったか?等)