#93
summarized by : Norikatsu Sumi
CLIP-NeRF: Text-and-Image Driven Manipulation of Neural Radiance Fields

どんな論文か?

・CLIPを用いて,テキストと画像で,NeRFの出力を操作する論文 ・従来のConditional NeRFからさらに,形・色を別々に操作できるNeRFのアーキテクチャを提案
placeholder

新規性

(1)テキスト・画像でmanipulationするNeRFを初めて提案 (2)対象の形状・色を表現するshape code・appearance codeを導入したdisentangleな条件付きNeRFのアーキテクチャ (3)従来手法のEditNeRFよりも高速に推論可能なcode mapper (4)exemplar画像からshape/appearance codeを推定する逆関数

結果

(1)椅子・車を対象として,shape/appearanceを操作し,FIDでEditNeRFと比較評価して,概ね良い精度で画像を生成可能 (2)EditNeRFよりも10倍以上高速にmanipulationが可能 (3)人手によるmanipulationの評価で,平均83.7%正しく操作可能 Limitationとして,(1)テキストから詳細な形状・色を操作 (2)ドメインに無い編集 はできない

その他(なぜ通ったか?等)

https://cassiepython.github.io/clipnerf/ ・CLIPからsimilarityを計算して学習する方法が,これからデファクトとなる方法だと思われる ・妥当な最適化がされているように見えるが,理論的な説明が若干かける印象 ・deformation時のconditional positional encodingでtanh関数を加えてupdateできることが謎である