Text Guided Person Image Synthesis

#711

summarized by : Masaki Taniguchi

Xingran Zhou, Siyu Huang, Bin Li, Yingming Li, Jiachen Li, Zhongfei Zhang

どんな論文か？

GANを用いて、自然言語による説明文と元写真の入力から人物写真の外観（向きと服の色）を編集する手法を紹介している。 2ステージからなる手法を提案しており、最初のステージでは説明文から人物のポーズを、2ステージ目では説明文とポーズ、元画像を入力として新しく生成された人物写真を生成している。

新規性

テキスト-画像特徴量間の関連性を見るtext-to-visual attentionを作成、それを用いた新しい拡大モジュール（Attentional Upsampling）を提案している。これを用いることで入力画像の特徴を生成画像に引き継ぐことが可能になる。また、このタスクの評価法として、生成した画像をVQAタスクのモデルに入力し、出力の正解率を見る方法を提案している。

結果

提案した評価法（VQA Perceptual Score）において既存手法よりも高いスコアを出した。また、見た目にも既存の手法と比べて明らかに鮮明な画像を出力できている。

その他（なぜ通ったか？等）

このページで利用されている画像は論文から引用しています．