#68
summarized by : Naoya Chiba
Point Primitive Transformer for Long-Term 4D Point Cloud Video Understanding

どんな論文か?

三次元点群のシーケンスをから時空間コンテキストを捉えるためのトランスフォーマーベースのバックボーンネットワークの提案.平面領域をプリミティブとしてパターンを捉えるため,プリミティブ内部とプリミティブ間でのAttentionを導入,さらに時系列を扱うためにPrimitive Transformerをオフラインのメモリバンクとオンライン(短時間フレーム)の間で用いる.
placeholder

新規性

平面をプリミティブとして用いることで点群すべてを一度にTransformerに入力しないため扱う要素数が減るので,現実的に時系列データに拡張できる.提案法により長時間の点群シーケンスについてフレーム間でのプリミティブの一貫性を保ち,適切なセマンティックラベル・シーンラベルを推定する.

結果

Synthia 4D datasetとHOI4Dで4Dセマンティックセグメンテーション,MAR-Action3Dで3D行動分類タスクでそれぞれ検証.セグメンテーションでは少数フレームでも既存手法と同等以上の性能であり,長くシーケンスを用いるとより優れた性能を達成.行動分類でも既存手法と比較し,長いフレームで特に優れており点群シーケンスをうまく利用できていることがわかる.

その他(なぜ通ったか?等)