#200
summarized by : Mitani Tomohiro
Object-Driven Text-To-Image Synthesis via Adversarial Training

どんな論文か?

これまでCOCOのような複数の物体の関係が表現されているような情景描写のあるtextからの画像生成は難しかった。objectごとのbounding boxを生成した後に、粗い画像を生成後、class labelとobject attention layerによって各bounding boxについて精細化し、object-wise dicriminatorとともに学習することで高精細な画像を得た。
placeholder

新規性

object attention layerにobject class label

結果

COCOでInception 27.37±0.22, FID 25.85と、state-of-the-artを更新。

その他(なぜ通ったか?等)