Tianyi Wei; Dongdong Chen; Wenbo Zhou; Jing Liao; Zhentao Tan; Lu Yuan; Weiming Zhang; Nenghai Yu
写真の人物の髪型を編集タスクにおいて、既存の多くの手法が変換したいスタイルの画像(スケッチなど)を入力する必要があるが、効率が悪いと指摘。
そこで、本論文がテキストや画像両方とも対応できる「HairCLIP」を提案。
「HairCLIP」がCLIPを使って入力したテキストまたは画像をEmbeddingし、その情報をStyleGANに入れて画像生成する。三つの損失関数で生成品質担保
一つのモデルでテキストと画像を同じくスタイル変換の条件として受けられる。
定性的・定量的な比較とユーザー調査により、本手法の優位性が実証された。