#61
summarized by : Yoshi Truong
DiffusionCLIP: Text-Guided Diffusion Models for Robust Image Manipulation

どんな論文か?

最近GAN+CLIPを用いたテキストで画像操作の研究が多かった。但しGANベース手法を使うと画像の詳細な部分がなくなることが多い、つまり変えようもしないところが変わってしまう。 本研究は、GANのGeneratorをDiffusionに置き換えることによりその弱点を回避し、詳細なところも復元できるようにする。
placeholder

新規性

(1)有力な技術CLIP、Diffusionを上手く混ぜて使用すること。 (2)より早いDiffusion sampling工程。 (3)複数のforward diffusionモデルが生成した潜在ノイズを混ぜて、reverse一回で複数の属性を編集すること。

結果

(1)GANベースSOTAと比べた。結果画像を見たら本研究の結果が良さそう。但し、具体的な数字比較結果が少ない。cherry pick? (2)人間の顔の編集タスクでSOTAの結果とどっちが実際に好まれるかuser studyを行った。データセットによくある画像の場合は互角、珍しいdomain、poseの場合は本研究の結果が圧倒的に勝つという結論。

その他(なぜ通ったか?等)

GitHub: https://github.com/gwang-kim/DiffusionCLIP (PyTorch) 訓練済みモデルを試しに動かした。手で顔を触る写真を入力て出力は手がなくなることが多い。