#84
summarized by : Takeru Endo
CLIPstyler: Image Style Transfer With a Single Text Condition

どんな論文か?

従来のstyle transferではstyleを参照するための画像を必要としていたが、本研究ではテキスト情報のみで画像のstyle transferを実現している。ベースのモデルはEncoder-Decoder(lightweight U-net)で、Lossの算出にCLIPを活用している。
placeholder

新規性

テキスト情報のみでstyle transferを行う研究はなかった。類似研究としてstyleCLIPがあるが、こちらはstyleGANの潜在空間をテキスト情報から探索するモデルであった。

結果

"Starry Night by Vincent van gogh"といった細かい指定や、"pop art"のような簡潔な指定にも対応し、高品質な画像を生成できている。

その他(なぜ通ったか?等)

モデルはシンプルだが、細かい損失関数の設計が重要な研究であった。https://github.com/cyclomon/CLIPstyler