Unleashing Transformers: Parallel Token Prediction with Discrete Absorbing Diffusion for Fast High-Resolution Image Generation from Vector-Quantized Codes

#98

summarized by : Tong Zheng

Sam Bond-Taylor; Peter Hessey; Hiroshi Sasaki; Toby P. Breckon; Chris G. Willcocks

どんな論文か？

Diffusion modelを用いた画像生成。従来のDiffusion modelを使った画像生成は、かなり長いmarkov chainを通すので計算量が膨大かつスピードが遅い。本論文はmarkov chainの長さを減った。なお、Transformerを利用することで画像生成の質を上がった。

新規性

1. VQ-VAEのencoderを使って特定画像をlatent codeに変換。 2. （例）latent codeの要素数の10%を使って画像A生成、20%でB生成、30%でC生成....A,B,Cはmarkov chainのnodeとしてTransformerのDiffusion modelを学習。latent code内の要素数が多くないのでmarkov chainの長さもおかげで減った。

結果

LSUN Bedroom, LSUN Churches, and FFHQでいい結果だがStyleGAN2に及ばなかった。パラメータ数もStyleGAN2より多いので少し残念。スピードは従来のDiffusion modelより速かった。

その他（なぜ通ったか？等）

Diffusion model+VQ-VAEの画像生成。 https://github.com/samb-t/unleashing-transformers

このページで利用されている画像は論文から引用しています．