#366
summarized by : Anonymous
MORE: Multi-Order RElation Mining for Dense Captioning in 3D Scenes

どんな論文か?

3D Denseキャプションにおいて、Multi-Order RElation mining model (MORE)を提案し、キャプションの記述性と理解性を向上しました。具体的には、3Dシーン内のオブジェクト間の基本的な一次空間関係を意味的に符号化してから、Attention構造に基づいたグラフ推論により、多次関係を推論しキャプション生成を行います。
placeholder

新規性

既存手法(Scan2cap)では、オブジェクト間の関係をエンコーディングしなくて、これらの特徴を副産物として扱い、最優のキャプションを生成できません。この論文では、物体間に存在していた複雑な関係を利用するために、Spatial Layout Graph Convolution (SLGC)という構造を提案し、3Dシーンでのオブジェクト間の複雑な関係も処理できるようになりました。

結果

多くの評価指標において、MOREモデルは既存のSoTAモデルに超えられます。定性結果から見ると、生成されたキャプションの中複雑な空間関係を記述しています。

その他(なぜ通ったか?等)

https://github.com/SxJyJay/MORE