MirrorGAN: Learning Text-To-Image Generation by Redescription

#65

summarized by : Kazuma_Asano

Tingting Qiao, Jing Zhang, Duanqing Xu, Dacheng Tao

どんな論文か？

Text2Image(T2I)のモデルに，生成した画像を再びTextに戻すI2Tを加えたMirrorGANを提案．2つのベンチマークと比較してSOTA． 1.T2IとI2T構造を持つGANを提案． 2.局所的・全体的にアテンションをかけドメインの一貫性を保つcascaded generaterを提案 3.生成画像から再びテキストに復元した時，テキストの意味的復元情報のLossを提案．

新規性

　CycleGANやDualGANみたいなCycle ConsistencyをText2Imageのタスクに適用した論文で，適用することで従来手法より精度が向上することを確かめた．また，生成画像から復元したテキストのSemantic Lossを考慮し，学習効率を向上させた．

結果

　CUBとMSCOCOデータセットを利用し，AttnGANなどとの結果を比較．評価にはInception Scores, Re-precisionを使い，どのデータセット，モデルの組み合わせでもMirrorGANがSOTAを獲得．

その他（なぜ通ったか？等）

　Tex2ImageにCycle Consistencyを適用させただけでなく，Textに対し生成画像のアテンションを可視化するとかなりいい精度でアテンションがかかっていることがわかる．結果としても提案手法がSOTAを獲得していたため，通ったと考えられる．

このページで利用されている画像は論文から引用しています．