#310
summarized by : cho
CLIP-Forge: Towards Zero-Shot Text-To-Shape Generation

どんな論文か?

text-to-shape問題に関して、大量なテキストと形状のペアデータが必要だが、世の中で少ないためモデル構築しずらい。 本論文が3D形状データのみでテキストから形状を生成する手法「CLIP-Forge」を提案。 CLIPにある画像とテキストの共有潜在埋め込み空間を活用し、3D形状の多角度2Dレンダリング画像をCLIPに入れて、学習段階でテキストのような役割を担わせた。
placeholder

新規性

3D形状のデータセットのみでテキストから3D形状生成のモデルを構築した。

結果

定性的、定量的な評価指標を提供した。 有効性を示した。

その他(なぜ通ったか?等)