- …
- …
#114
summarized by : 綱島秀樹
どんな論文か?
VQVAEに対してGANのロス、codebookへのtransformerの適用をすることで1k x 1k以上の画像を生成することができるVQGANを提案した。
超解像、Inpainting、region editingが扱える。
新規性
1k x 1k以上の高解像度画像を高品質で生成できる点
結果
semantic layout、欠損した画像、解像度の粗い画像、ポーズなどをconditionとしての画像生成を行っており、自己回帰モデルとの比較を行っており定量評価でSOTA。
その他(なぜ通ったか?等)
この論文はImage Transformer (自己回帰モデルにTransformerを組み込んだもの) とVQVAEをくっつけただけで非常にtrivialな貢献であり、計算資源で殴る論文。
他のGANや尤度ベースの定量評価がなく、なぜ通ったのかが非常に微妙な論文。
code:https://github.com/CompVis/taming-transformers
- …
- …