Object-Driven Text-To-Image Synthesis via Adversarial Training

#200

summarized by : Mitani Tomohiro

Wenbo Li, Pengchuan Zhang, Lei Zhang, Qiuyuan Huang, Xiaodong He, Siwei Lyu, Jianfeng Gao

どんな論文か？

これまでCOCOのような複数の物体の関係が表現されているような情景描写のあるtextからの画像生成は難しかった。objectごとのbounding boxを生成した後に、粗い画像を生成後、class labelとobject attention layerによって各bounding boxについて精細化し、object-wise dicriminatorとともに学習することで高精細な画像を得た。

新規性

object attention layerにobject class label

結果

COCOでInception 27.37±0.22, FID 25.85と、state-of-the-artを更新。

その他（なぜ通ったか？等）

このページで利用されている画像は論文から引用しています．