Aditya Sanghi; Hang Chu; Joseph G. Lambourne; Ye Wang; Chin-Yi Cheng; Marco Fumero; Kamal Rahimi Malekshan
text-to-shape問題に関して、大量なテキストと形状のペアデータが必要だが、世の中で少ないためモデル構築しずらい。
本論文が3D形状データのみでテキストから形状を生成する手法「CLIP-Forge」を提案。
CLIPにある画像とテキストの共有潜在埋め込み空間を活用し、3D形状の多角度2Dレンダリング画像をCLIPに入れて、学習段階でテキストのような役割を担わせた。
3D形状のデータセットのみでテキストから3D形状生成のモデルを構築した。
定性的、定量的な評価指標を提供した。
有効性を示した。