DiffusionCLIP: Text-Guided Diffusion Models for Robust Image Manipulation

#61

summarized by : Yoshi Truong

Gwanghyun Kim; Taesung Kwon; Jong Chul Ye

どんな論文か？

最近GAN＋CLIPを用いたテキストで画像操作の研究が多かった。但しGANベース手法を使うと画像の詳細な部分がなくなることが多い、つまり変えようもしないところが変わってしまう。本研究は、GANのGeneratorをDiffusionに置き換えることによりその弱点を回避し、詳細なところも復元できるようにする。

新規性

（１）有力な技術CLIP、Diffusionを上手く混ぜて使用すること。（２）より早いDiffusion sampling工程。（３）複数のforward diffusionモデルが生成した潜在ノイズを混ぜて、reverse一回で複数の属性を編集すること。

結果

（１）GANベースSOTAと比べた。結果画像を見たら本研究の結果が良さそう。但し、具体的な数字比較結果が少ない。cherry pick？（２）人間の顔の編集タスクでSOTAの結果とどっちが実際に好まれるかuser studyを行った。データセットによくある画像の場合は互角、珍しいdomain、poseの場合は本研究の結果が圧倒的に勝つという結論。

その他（なぜ通ったか？等）

GitHub: https://github.com/gwang-kim/DiffusionCLIP (PyTorch) 訓練済みモデルを試しに動かした。手で顔を触る写真を入力て出力は手がなくなることが多い。

このページで利用されている画像は論文から引用しています．