Text-to-Image Synthesis Based on Object-Guided Joint-Decoding Transformer

#186

summarized by : Ryo Muto

Fuxiang Wu; Liu Liu; Fusheng Hao; Fengxiang He; Jun Cheng

どんな論文か？

オブジェクトに基づいたキャプション（テキスト）から画像の合成において，高品質な画像合成を実現する2つのモジュールを提案 1)レイアウト・画像の生成を同時に行うobject-guided jointdecoding module（レイアウト：バウンディングボックスと物体ラベルで構成されたシーン情報） 2)生成した画像に対してより詳細な視覚的特徴を補完するdetail-enhanced GAN

新規性

従来手法ではキャプションからレイアウト情報生成→レイアウトとキャプションから画像の生成というモデルだったが、構造が複雑なため誤差伝播の問題が生じる一方、近年のTransformerを用いたモデルはレイアウト情報を考慮していないため、複雑なシーンを理解できない可能性がある本研究では、レイアウト生成と画像生成をワンステップで行う

結果

MSCOCOを学習したAttnGAN、DM-GAN、OPGANと比較し、高品質な画像の合成を確認また，比較により，レイアウトを共通のモデルで学習することによる有効性を確認

その他（なぜ通ったか？等）

今後の課題として，DALL-E（330万のテキスト-画像ペア）やCogView（3000万の高品質なテキスト-画像ペア）のような，より大規模・複雑なデータセットでの実験が挙げられている

このページで利用されている画像は論文から引用しています．