3DJCG: A Unified Framework for Joint Dense Captioning and Visual Grounding on 3D Point Clouds

#343

summarized by : QIUYUE

Daigang Cai; Lichen Zhao; Jing Zhang; Lu Sheng; Dong Xu

どんな論文か？

3次元環境から物体を記述するデンスキャプションnタスクと、テキスト情報から指定された物体をローカライズするタスクGroundingが必要な情報レベルでシェアできる部分が多い。ここで、Jointlyで3D デンスキャプションとGroundingを学習する手法を提案。具体的に、Transformer構造をベースに2つのタスクの共通部分を扱う構造を構成し、ヘッドの部分をタスク別なものを用いる。

新規性

まず、画像ベースの方では新しくないですが、3次元環境で同時に3D dense captioningとGroundingを行う手法はこれまでになかったため、この研究での提案が新しい。また、類似したような複数のタスクを同一なフレームワークで学習する提案も今まで多かったが、3次元環境をベースとするものがあまりなかったため、この面においても提案の共通3次元理解のモデルが新しい。

結果

実験結果によりJointlyで3D dense captioningとGroundingの有効性が示せた。具体的に、複数の3D dense captioningとGroundingの既存ベンチマークにおいて両方ともSOTAな性能を達成した。

その他（なぜ通ったか？等）

このページで利用されている画像は論文から引用しています．