TediGAN: Text-Guided Diverse Face Image Generation and Manipulation

#87

summarized by : Tadashi Ise

Weihao Xia, Yujiu Yang, Jing-Hao Xue, Baoyuan Wu

どんな論文か？

本論文ではテキストガイド付きの画像合成をするためのフレームワークであるTediGAN，それを促進する大規模データセットMulti-Modal CelebA-HQを提案．単的に述べると入力された文字通りに人の画像を生成する手法を提案．実験では生成された画像の画質，多様性，正確性，現実性の 4 つの側面を評価．

新規性

TediGANはテキストガイドによる画像生成と操作を1つのフレームワークに統合した初めての手法．テキスト、スケッチ、ラベルなどのマルチモーダル情報を，事前学習したStyleGANの共通潜在空間にマッピングできるGAN反転技術を初めて提案．従来よりも高解像度で画像生成が可能．

結果

画質はFre´chet Inception Distance (FID)を用いて，多様性はLearned Perceptual Image Patch Similarity (LPIPS)を用いて評価し，従来手法よりも精度良好であった．また，入力されたテキスト通りに生成できているかの正確性，実際の写真のように生成できているかの現実性をユーザー調査で評価し，従来手法よりも精度良好であった．

その他（なぜ通ったか？等）

このページで利用されている画像は論文から引用しています．