- …
- …
#186
summarized by : Ryo Muto
どんな論文か?
オブジェクトに基づいたキャプション(テキスト)から画像の合成において,高品質な画像合成を実現する2つのモジュールを提案
1)レイアウト・画像の生成を同時に行うobject-guided jointdecoding module(レイアウト:バウンディングボックスと物体ラベルで構成されたシーン情報)
2)生成した画像に対してより詳細な視覚的特徴を補完するdetail-enhanced GAN
新規性
従来手法ではキャプションからレイアウト情報生成→レイアウトとキャプションから画像の生成というモデルだったが、構造が複雑なため誤差伝播の問題が生じる
一方、近年のTransformerを用いたモデルはレイアウト情報を考慮していないため、複雑なシーンを理解できない可能性がある
本研究では、レイアウト生成と画像生成をワンステップで行う
結果
MSCOCOを学習したAttnGAN、DM-GAN、OPGANと比較し、高品質な画像の合成を確認
また,比較により,レイアウトを共通のモデルで学習することによる有効性を確認
その他(なぜ通ったか?等)
今後の課題として,DALL-E(330万のテキスト-画像ペア)やCogView(3000万の高品質なテキスト-画像ペア)のような,より大規模・複雑なデータセットでの実験が挙げられている
- …
- …