#343
summarized by : QIUYUE
3DJCG: A Unified Framework for Joint Dense Captioning and Visual Grounding on 3D Point Clouds

どんな論文か?

3次元環境から物体を記述するデンス キャプションnタスクと、テキスト情報から指定された物体をローカライズするタスクGroundingが必要な情報レベルでシェアできる部分が多い。ここで、Jointlyで3D デンスキャプションとGroundingを学習する手法を提案。具体的に、Transformer構造をベースに2つのタスクの共通部分を扱う構造を構成し、ヘッドの部分をタスク別なものを用いる。
placeholder

新規性

まず、画像ベースの方では新しくないですが、3次元環境で同時に3D dense captioningとGroundingを行う手法はこれまでになかったため、この研究での提案が新しい。また、類似したような複数のタスクを同一なフレームワークで学習する提案も今まで多かったが、3次元環境をベースとするものがあまりなかったため、この面においても提案の共通3次元理解のモデルが新しい。

結果

実験結果によりJointlyで3D dense captioningとGroundingの有効性が示せた。具体的に、複数の3D dense captioningとGroundingの既存ベンチマークにおいて両方ともSOTAな性能を達成した。

その他(なぜ通ったか?等)