#114
summarized by : 綱島秀樹
Taming Transformers for High-Resolution Image Synthesis

どんな論文か?

VQVAEに対してGANのロス、codebookへのtransformerの適用をすることで1k x 1k以上の画像を生成することができるVQGANを提案した。 超解像、Inpainting、region editingが扱える。
placeholder

新規性

1k x 1k以上の高解像度画像を高品質で生成できる点

結果

semantic layout、欠損した画像、解像度の粗い画像、ポーズなどをconditionとしての画像生成を行っており、自己回帰モデルとの比較を行っており定量評価でSOTA。

その他(なぜ通ったか?等)

この論文はImage Transformer (自己回帰モデルにTransformerを組み込んだもの) とVQVAEをくっつけただけで非常にtrivialな貢献であり、計算資源で殴る論文。 他のGANや尤度ベースの定量評価がなく、なぜ通ったのかが非常に微妙な論文。 code:https://github.com/CompVis/taming-transformers