Multi-View Transformer for 3D Visual Grounding

#219

summarized by : QIUYUE

Shijia Huang; Yilun Chen; Jiaya Jia; Liwei Wang

どんな論文か？

3D Visual Groundingタスクは指定された言語で3次元空間から物体検出を行う。このタスクでシーンの観測視点が結果に影響が大きいが、既存手法は主に１視点を検討する。ここで複数視点を利用し視点変更に対してロバストな手法を構築した。提案手法では3次元データを複数視点に変更し、それらを別々でTransformerにより特徴抽出し最後にAggregateすることにより性能向上を実現。

新規性

複数視点から観測された3次元点群（複数）、をTransformerにより扱うMulti-view Transformerを提案した。今回は3D Visual Groundingタスクに適応したが、他の3D 系の視点に対してのロバスト性向上においても活用できる。

結果

提案手法が既存のベンチマークデータセットNr3DとSr3DでSOTAを達成。また、定性的な実験結果により提案手法が視点の変動にロバストを示した。

その他（なぜ通ったか？等）

論文のAbstractで既存手法はSingle-viewを使っていることを主張している。この点に関してはよく理解できない（既存手法は点群を使っているように思うが）。また、3次元データをROtateしても、同じ3次元データなので、今回のやり方で性能を向上できた一方、同じ情報を繰り返してTransformerで処理するので、計算コストが高そう。

このページで利用されている画像は論文から引用しています．