#358
summarized by : 中村 優太
RiFeGAN: Rich Feature Generation for Text-to-Image Synthesis From Prior Knowledge

どんな論文か?

複数のキャプションから画像生成を行うtext-to-image taskを, モデルを1回実行するだけで可能にした研究. 単一のキャプションからの画像生成モデルの一つである AttnGAN (CVPR 2018) を改良しており, 後継的なモデルとなっている.
placeholder

新規性

1回の実行のみで画像生成ができる点. ほかにも複数のキャプションから画像生成を行う手法は存在するが, いずれもキャプションの数だけモデルを繰り返し実行させなければならなかった.

結果

Caltech-UCSD Birds-200-2011, Oxford-Flower-102の2つのデータセットで実験し, Inception scoreとR-precisionにて評価. いずれも既存手法(AttnGAN, DM-GAN)より改善したほか, caption set内に一見たがいに矛盾しているような記述が存在したとしても, 両方の特徴をうまく取り込んだ画像が生成できた.

その他(なぜ通ったか?等)