RiFeGAN: Rich Feature Generation for Text-to-Image Synthesis From Prior Knowledge

#358

summarized by : 中村優太

Jun Cheng, Fuxiang Wu, Yanling Tian, Lei Wang, Dapeng Tao

どんな論文か？

複数のキャプションから画像生成を行うtext-to-image taskを, モデルを1回実行するだけで可能にした研究. 単一のキャプションからの画像生成モデルの一つである AttnGAN (CVPR 2018) を改良しており, 後継的なモデルとなっている.

新規性

1回の実行のみで画像生成ができる点. ほかにも複数のキャプションから画像生成を行う手法は存在するが, いずれもキャプションの数だけモデルを繰り返し実行させなければならなかった.

結果

Caltech-UCSD Birds-200-2011, Oxford-Flower-102の2つのデータセットで実験し, Inception scoreとR-precisionにて評価. いずれも既存手法(AttnGAN, DM-GAN)より改善したほか, caption set内に一見たがいに矛盾しているような記述が存在したとしても, 両方の特徴をうまく取り込んだ画像が生成できた.

その他（なぜ通ったか？等）

このページで利用されている画像は論文から引用しています．