#98
summarized by : Tong Zheng
Unleashing Transformers: Parallel Token Prediction with Discrete Absorbing Diffusion for Fast High-Resolution Image Generation from Vector-Quantized Codes

どんな論文か?

Diffusion modelを用いた画像生成。従来のDiffusion modelを使った画像生成は、かなり長いmarkov chainを通すので計算量が膨大かつスピードが遅い。本論文はmarkov chainの長さを減った。なお、Transformerを利用することで画像生成の質を上がった。
placeholder

新規性

1. VQ-VAEのencoderを使って特定画像をlatent codeに変換。 2. (例)latent codeの要素数の10%を使って画像A生成、20%でB生成、30%でC生成....A,B,Cはmarkov chainのnodeとしてTransformerのDiffusion modelを学習。latent code内の要素数が多くないのでmarkov chainの長さもおかげで減った。

結果

LSUN Bedroom, LSUN Churches, and FFHQでいい結果だがStyleGAN2に及ばなかった。パラメータ数もStyleGAN2より多いので少し残念。スピードは従来のDiffusion modelより速かった。

その他(なぜ通ったか?等)

Diffusion model+VQ-VAEの画像生成。 https://github.com/samb-t/unleashing-transformers