- …
- …
#61
summarized by : Yoshi Truong
どんな論文か?
最近GAN+CLIPを用いたテキストで画像操作の研究が多かった。但しGANベース手法を使うと画像の詳細な部分がなくなることが多い、つまり変えようもしないところが変わってしまう。
本研究は、GANのGeneratorをDiffusionに置き換えることによりその弱点を回避し、詳細なところも復元できるようにする。
新規性
(1)有力な技術CLIP、Diffusionを上手く混ぜて使用すること。
(2)より早いDiffusion sampling工程。
(3)複数のforward diffusionモデルが生成した潜在ノイズを混ぜて、reverse一回で複数の属性を編集すること。
結果
(1)GANベースSOTAと比べた。結果画像を見たら本研究の結果が良さそう。但し、具体的な数字比較結果が少ない。cherry pick?
(2)人間の顔の編集タスクでSOTAの結果とどっちが実際に好まれるかuser studyを行った。データセットによくある画像の場合は互角、珍しいdomain、poseの場合は本研究の結果が圧倒的に勝つという結論。
その他(なぜ通ったか?等)
GitHub: https://github.com/gwang-kim/DiffusionCLIP (PyTorch)
訓練済みモデルを試しに動かした。手で顔を触る写真を入力て出力は手がなくなることが多い。
- …
- …