CLIP-Forge: Towards Zero-Shot Text-To-Shape Generation

#310

summarized by : cho

Aditya Sanghi; Hang Chu; Joseph G. Lambourne; Ye Wang; Chin-Yi Cheng; Marco Fumero; Kamal Rahimi Malekshan

どんな論文か？

text-to-shape問題に関して、大量なテキストと形状のペアデータが必要だが、世の中で少ないためモデル構築しずらい。本論文が3D形状データのみでテキストから形状を生成する手法「CLIP-Forge」を提案。 CLIPにある画像とテキストの共有潜在埋め込み空間を活用し、3D形状の多角度2Dレンダリング画像をCLIPに入れて、学習段階でテキストのような役割を担わせた。

新規性

3D形状のデータセットのみでテキストから3D形状生成のモデルを構築した。

結果

定性的、定量的な評価指標を提供した。有効性を示した。

その他（なぜ通ったか？等）

このページで利用されている画像は論文から引用しています．