#331
summarized by : 鈴木共生
AnyFace: Free-Style Text-To-Face Synthesis and Manipulation

どんな論文か?

文章からそれにマッチする顔画像を生成する論文.論文で実現したことは画像のとおり.左図のように複数の文章を与えることによってSourceに近い画像を生成できる.また,右図上のように学習データにない単語(PhDなど)が与えられてもそれらしい画像を生成できる.右図下のようにどれだけ文章に近づけるかも操作できる.
placeholder

新規性

複数文章や学習データにない単語からの画像生成にはCLIPを使用している.この時,文章を入力としたCLIPのみでは上手く画像生成できないため,ターゲット画像を入力としたCLIPと特徴を近づける学習をすることで解決している.また,生成画像の多様性を担保するためにStyleGANの特徴にも近づけている.文章にどれだけ近づけるかの操作は特徴空間の情報をどれだけ使うかを調節することで操作している.

結果

文字と顔画像のペアデータセットであるCelebA-HQとCelebText-HQで実験.画像生成の評価指標であるFID,LPIPS,RFRRで評価してSOTAを達成.

その他(なぜ通ったか?等)

従来法では学習データに含まれない単語に対応できないという問題があったが,これをCLIPを使用して解決しているため(AnyFace).また,それのみでは適切な画像はできないためGANの手法をうまく取り組んで解決する方法を提示し,SOTAを達成しているため.