- …
- …
#343
summarized by : QIUYUE
どんな論文か?
3次元環境から物体を記述するデンス キャプションnタスクと、テキスト情報から指定された物体をローカライズするタスクGroundingが必要な情報レベルでシェアできる部分が多い。ここで、Jointlyで3D デンスキャプションとGroundingを学習する手法を提案。具体的に、Transformer構造をベースに2つのタスクの共通部分を扱う構造を構成し、ヘッドの部分をタスク別なものを用いる。
新規性
まず、画像ベースの方では新しくないですが、3次元環境で同時に3D dense captioningとGroundingを行う手法はこれまでになかったため、この研究での提案が新しい。また、類似したような複数のタスクを同一なフレームワークで学習する提案も今まで多かったが、3次元環境をベースとするものがあまりなかったため、この面においても提案の共通3次元理解のモデルが新しい。
結果
実験結果によりJointlyで3D dense captioningとGroundingの有効性が示せた。具体的に、複数の3D dense captioningとGroundingの既存ベンチマークにおいて両方ともSOTAな性能を達成した。
その他(なぜ通ったか?等)
- …
- …