#711
summarized by : Masaki Taniguchi
Text Guided Person Image Synthesis

どんな論文か?

GANを用いて、自然言語による説明文と元写真の入力から人物写真の外観(向きと服の色)を編集する手法を紹介している。 2ステージからなる手法を提案しており、最初のステージでは説明文から人物のポーズを、2ステージ目では説明文とポーズ、元画像を入力として新しく生成された人物写真を生成している。
placeholder

新規性

テキスト-画像特徴量間の関連性を見るtext-to-visual attentionを作成、それを用いた新しい拡大モジュール(Attentional Upsampling)を提案している。これを用いることで入力画像の特徴を生成画像に引き継ぐことが可能になる。 また、このタスクの評価法として、生成した画像をVQAタスクのモデルに入力し、出力の正解率を見る方法を提案している。

結果

提案した評価法(VQA Perceptual Score)において既存手法よりも高いスコアを出した。 また、見た目にも既存の手法と比べて明らかに鮮明な画像を出力できている。

その他(なぜ通ったか?等)