- …
- …
#98
summarized by : Tong Zheng
どんな論文か?
Diffusion modelを用いた画像生成。従来のDiffusion modelを使った画像生成は、かなり長いmarkov chainを通すので計算量が膨大かつスピードが遅い。本論文はmarkov chainの長さを減った。なお、Transformerを利用することで画像生成の質を上がった。
新規性
1. VQ-VAEのencoderを使って特定画像をlatent codeに変換。
2. (例)latent codeの要素数の10%を使って画像A生成、20%でB生成、30%でC生成....A,B,Cはmarkov chainのnodeとしてTransformerのDiffusion modelを学習。latent code内の要素数が多くないのでmarkov chainの長さもおかげで減った。
結果
LSUN Bedroom, LSUN Churches, and FFHQでいい結果だがStyleGAN2に及ばなかった。パラメータ数もStyleGAN2より多いので少し残念。スピードは従来のDiffusion modelより速かった。
その他(なぜ通ったか?等)
Diffusion model+VQ-VAEの画像生成。
https://github.com/samb-t/unleashing-transformers
- …
- …