Diffusion Autoencoders: Toward a Meaningful and Decodable Representation

#124

summarized by : 朝岡忠

Konpat Preechakul; Nattanat Chatthee; Suttisak Wizadwongsa; Supasorn Suwajanakorn

どんな論文か？

拡散確率モデル(DPM)では，得られた潜在変数に高レベルのセマンティクスが欠けているため，他のタスクに有用な表現学習として機能しない．本論文ではDPMにおいて，入力画像の意味的にデコード可能な表現の抽出を目指している．

新規性

Diffusion Autoencodersを提案．潜在変数zsemを条件とする条件付きDDIM（Denoising Diffusion Implicit Model）デコーダp(xt-1|xt, zsem)と，入力画像x0をzsemに対応付けるセマンティクエンコーダzsem = Encφ(x0)を設計．条件付きDDIMデコーダは潜在変数 z = (zsem, xT)を入力として画像を再構成．

結果

Diffusion Autoencodersは，画像の意味的および確率的な変動の両方を捉え，ほぼ正確な再構成を可能にする2つの潜在変数（zsem, xT）にエンコードすることができる．

その他（なぜ通ったか？等）

https://Diff-AE.github.io

このページで利用されている画像は論文から引用しています．