.从前向过程,逆向采样过程,优化目标三块进行介绍。
一句话概括diffusion model,即存在一系列高斯噪声( T轮),将输入图片 x_0变为纯高斯噪声 x_T。而我们的模型则负责将 x_T 复原回图片 x_0 。这样一来其实diffusion model和GAN很像,都是给定噪声 x_T生成图片 x_0 ,但是要强调的是,这里噪声 x_T与图片x_0是同维度的。
前向过程,即往图片上加噪声的过程。这个步骤无法做到图片生成,但是这是理解diffusion model以及构建训练样本GT至关重要的一步
给定真实图片
x
0
∼
q
(
x
)
x_0\sim q(x)
x0∼q(x) ,将真实图片分布记为q(x),diffusion前向过程通过 T次累计对其添加高斯噪声,得到
x
1
,
x
2
,
.
.
.
,
x
T
x_1,x_2,...,x_T
x1,x2,...,xT如下图的q过程。
前向过程中有两个重要特性需要注意:
**特性1 - 重参数(reparameterization trick):**这个技巧在VAE中使用过,如果我们要从某个分布中随机采样(高斯分布)一个样本,这个过程是无法反传梯度的。而这个通过高斯噪声采样得到x_t的过程在diffusion中到处都是,因此我们需要通过重参数技巧来使得他可微。
最通常的做法是把随机性通过一个独立的随机变量\epsilon引导过去。举个例子,如果要从高斯分布
z
∼
N
(
z
;
μ
θ
,
σ
θ
2
I
)
z\sim \mathcal{N}(z;\mu_\theta,\sigma_\theta^2\mathbf{I})
z∼N(z;μθ,σθ2I) 采样一个z,我们可以写成:
z
=
μ
θ
+
σ
θ
⊙
ϵ
,
ϵ
∼
N
(
0
,
I
)
z=\mu_\theta+\sigma_\theta\odot\epsilon, \epsilon\sim\mathcal{N}(0,\mathbf{I})
z=μθ+σθ⊙ϵ,ϵ∼N(0,I)
上式的z依旧是有随机性的, 且满足均值为
μ
θ
\mu_\theta
μθ方差为
σ
θ
2
\sigma_\theta^2
σθ2的高斯分布。这里的
μ
θ
σ
θ
2
\mu_\theta\sigma_\theta^2
μθσθ2可以是由参数 \theta 的神经网络推断得到的。整个“采样”过程依旧梯度可导,随机性被转嫁到了
ϵ
\epsilon
ϵ上。
特性2 - 任意时刻的
x
t
x_t
xt可以由
x
0
x_0
x0和
β
\beta
β表示
能够通过
x
0
x_0
x0 和
β
\beta
β快速得到$ x_t$ 对后续diffusion model的推断和推导有巨大作用。首先我们假设
α
t
=
1
−
β
t
\alpha_t=1-\beta_t
αt=1−βt,并且
α
‾
t
=
∏
i
=
1
T
α
i
\overline{\alpha}_t=\prod_{i=1}^{T}\alpha_i
αt=∏i=1Tαi ,展开 x_t 可以得到:
更详细:
因此可以混合两个高斯分布得到标准差为 为\sqrt{1-\alpha_t \alpha_{t-1}}的混合高斯分布,然而上式中的 z ‾ 2 \overline{z}_{2} z2仍然是标准高斯分布。而任意时刻的 x_t 满足 q ( x t ∣ x 0 ) = N ( x t ; a ‾ t x 0 , ( 1 − a ‾ t ) I ) q(x_t|x_0)=\mathcal{N}(x_t;\sqrt{\overline{a}_t}x_0, (1-\overline{a}_t)\mathbf{I}) q(xt∣x0)=N(xt;atx0,(1−at)I)
因篇幅问题不能全部显示,请点此查看更多更全内容