CLIPstyler: Image Style Transfer With a Single Text Condition

#84

summarized by : Takeru Endo

Gihyun Kwon; Jong Chul Ye

従来のstyle transferではstyleを参照するための画像を必要としていたが、本研究ではテキスト情報のみで画像のstyle transferを実現している。ベースのモデルはEncoder-Decoder(lightweight U-net)で、Lossの算出にCLIPを活用している。

テキスト情報のみでstyle transferを行う研究はなかった。類似研究としてstyleCLIPがあるが、こちらはstyleGANの潜在空間をテキスト情報から探索するモデルであった。

"Starry Night by Vincent van gogh"といった細かい指定や、"pop art"のような簡潔な指定にも対応し、高品質な画像を生成できている。

モデルはシンプルだが、細かい損失関数の設計が重要な研究であった。https://github.com/cyclomon/CLIPstyler

このページで利用されている画像は論文から引用しています．