#186
summarized by : Ryo Muto
Text-to-Image Synthesis Based on Object-Guided Joint-Decoding Transformer

どんな論文か?

オブジェクトに基づいたキャプション(テキスト)から画像の合成において,高品質な画像合成を実現する2つのモジュールを提案 1)レイアウト・画像の生成を同時に行うobject-guided jointdecoding module(レイアウト:バウンディングボックスと物体ラベルで構成されたシーン情報) 2)生成した画像に対してより詳細な視覚的特徴を補完するdetail-enhanced GAN
placeholder

新規性

従来手法ではキャプションからレイアウト情報生成→レイアウトとキャプションから画像の生成というモデルだったが、構造が複雑なため誤差伝播の問題が生じる 一方、近年のTransformerを用いたモデルはレイアウト情報を考慮していないため、複雑なシーンを理解できない可能性がある 本研究では、レイアウト生成と画像生成をワンステップで行う

結果

MSCOCOを学習したAttnGAN、DM-GAN、OPGANと比較し、高品質な画像の合成を確認 また,比較により,レイアウトを共通のモデルで学習することによる有効性を確認

その他(なぜ通ったか?等)

今後の課題として,DALL-E(330万のテキスト-画像ペア)やCogView(3000万の高品質なテキスト-画像ペア)のような,より大規模・複雑なデータセットでの実験が挙げられている