AnyFace: Free-Style Text-To-Face Synthesis and Manipulation

#331

summarized by : 鈴木共生

Jianxin Sun; Qiyao Deng; Qi Li; Muyi Sun; Min Ren; Zhenan Sun

どんな論文か？

文章からそれにマッチする顔画像を生成する論文．論文で実現したことは画像のとおり．左図のように複数の文章を与えることによってSourceに近い画像を生成できる．また，右図上のように学習データにない単語(PhDなど)が与えられてもそれらしい画像を生成できる．右図下のようにどれだけ文章に近づけるかも操作できる．

新規性

複数文章や学習データにない単語からの画像生成にはCLIPを使用している．この時，文章を入力としたCLIPのみでは上手く画像生成できないため，ターゲット画像を入力としたCLIPと特徴を近づける学習をすることで解決している．また，生成画像の多様性を担保するためにStyleGANの特徴にも近づけている．文章にどれだけ近づけるかの操作は特徴空間の情報をどれだけ使うかを調節することで操作している．

結果

文字と顔画像のペアデータセットであるCelebA-HQとCelebText-HQで実験．画像生成の評価指標であるFID，LPIPS，RFRRで評価してSOTAを達成．

その他（なぜ通ったか？等）

従来法では学習データに含まれない単語に対応できないという問題があったが，これをCLIPを使用して解決しているため(AnyFace)．また，それのみでは適切な画像はできないためGANの手法をうまく取り組んで解決する方法を提示し，SOTAを達成しているため．

このページで利用されている画像は論文から引用しています．