正态分布标准化与VAE中的参数重整化

释放双眼,带上耳机,听听看~!
本文讨论了正态分布的标准化方法,以及在VAE中的参数重整化过程。同时解释了高斯分布的概率密度函数与随机变量转化的过程。

正态分布标准化

对于一个服从高斯分布的随机变量x∼N(μ,σ2)x sim mathcal N(mu,sigma^2),计算其均值μmu和标准差σsigma

其概率密度函数:

f(x)=12πσ2e−(x−μ)22σ2f(x) = frac{1}{sqrt{2 pi sigma^2}} e^{-frac{(x-mu)^2}{2 sigma^2}}

所谓“标准正态分布”,就是取 μ=0mu=0 一般 σ2=1sigma^2=1 正态分布给出的。

其概率密度函数:

f(x)=12πe−x22f(x) =frac{1}{sqrt{2 pi}} e^{frac{-x^2} 2}

对于任意一个正态分布的概率密度函数积分:

∫f(x)dx=∫12πσ2e−(x−μ)22σ2dx=∫1σ2πe−12(x−μσ)2dx=∫12πe−12(x−μσ)2d(x−μσ)begin{aligned}
int f(x) mathrm d x &= int frac{1}{sqrt{2 pi sigma^2}} e^{-frac{(x-mu)^2}{2 sigma^2}} mathrm dx

&= int frac {1}{sigma sqrt {2pi}}e^{-frac 1 2 left( frac{x-mu}{sigma} right)^2} mathrm d x

&= int frac{1}{sqrt{2 pi}} e^{-frac{1}{2}left(frac{x-mu}{sigma}right)^2} mathrm dleft(frac{x-mu}{sigma}right)
end{aligned}

z=x−μσz = frac{x-mu}{sigma},上边公式就变成了:

∫12πe−z22dzint frac{1}{sqrt{2 pi}} e^{-frac{z^2}{2}} mathrm dz

所以我们可以得到新的随机变量z=x−μσz = frac{x-mu}{sigma},符合标准正态分布。

所以对于一个服从高斯分布的随机变量x∼N(μ,σ2)x sim mathcal N(mu,sigma^2),取z=x−μσz = frac{x – mu}{sigma}即可将其转化为标准高斯分布z∼N(0,1)z sim mathcal N(0,1)

VAE中的参数重整化

VAE原文:Thesis.pdf (uva.nl)

正态分布标准化与VAE中的参数重整化

原来我们要从潜变量空间上随机采样一个值,就相当于从qϕ(z∣x)=N(μ,σ2)mathrm{q}_phi(mathbf{z} | mathbf{x}) = mathcal{N}left(mu, sigma^2right)中直接取zmathbf z

这样在反向传播过程中,“随机”这个过程是不可微的,因此无法使用梯度下降更新网络参数。因此我们需要将zmathbf z的产生变成一个确定过程。

借助正态分布标准化,取ϵ=z−μσepsilon = frac{mathbf z-mu}{sigma},我们可以知道ϵ∼N(0,I)epsilon sim mathcal{N}(0, boldsymbol{I}),现在z=μ+ϵ×σmathbf z=mu+epsilon times sigma

标准化之后,还是用的qϕ(z∣x)mathrm{q}_phi(mathbf{z} | mathbf{x})μmuσsigma,但是zmathbf zqϕ(z∣x)=N(μ,σ2)mathrm{q}_phi(mathbf{z} | mathbf{x}) = mathcal{N}left(mu, sigma^2right)中直接采样,变成了通过确定性方程g(ϕ,x,ϵ)=μ+ϵ×σmathrm g( phi, mathbf{x}, epsilon) =mu+epsilon times sigma得到的。

采样zmathbf z变成从标准正态分布中采样一个ϵepsilon,将随机性转嫁到了ϵepsilon上,不影响整体的梯度传导。

也就是 Reparameterization Trick

DDPM中的参数重整化

Given a data point sampled from a real data distribution x0∼q(x)mathbf{x}_0 sim q(mathbf{x}), let us define a forward diffusion process in which we add small amount of Gaussian noise to the sample in TT steps, producing a sequence of noisy samples x1,…,xTmathbf{x}_1, ldots, mathbf{x}_T. The step sizes are controlled by a variance schedule {βt∈(0,1)}t=1Tleft{beta_t in(0,1)right}_{t=1}^T

潜变量的后验分布为:

q(x1:T∣x0)=∏t=1Tq(xt∣xt−1)qleft(mathbf{x}_{1: T} mid mathbf{x}_0right)=prod_{t=1}^T qleft(mathbf{x}_t mid mathbf{x}_{t-1}right)

拆开看xtmathbf x_t的后验分布如下:

q(xt∣xt−1)=N(xt;1−βtxt−1,βtI)qleft(mathbf{x}_t mid mathbf{x}_{t-1}right)=mathcal{N}left(mathbf{x}_t ; sqrt{1-beta_t} mathbf{x}_{t-1}, beta_t mathbf{I}right)

然后我们就可以认为每个时间步tt的图像是从均值为μt=1−βtxt−1{mu}_t = sqrt{1 – beta_t} mathbf {x}_{t-1}、方差为σt2=βtsigma^2_t = beta_t的高斯分布中画出来的。

借助参数重整化可以写成:

xt=1−βtxt−1+βtϵmathbf {x}_t = sqrt{1 – beta_t}mathbf {x}_{t-1} + sqrt{beta_t} mathbf{epsilon}

其中ϵ ∼ N(0, I)mathbf{epsilon} sim mathcal{N}(mathbf{0}, mathbf{I}),是从标准高斯分布中采样的噪声。

本文正在参加「金石计划」

本网站的内容主要来自互联网上的各种资源,仅供参考和信息分享之用,不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益,请联系我们,我们将尽快采取行动,包括删除或更正。
AI教程

对抗生成网络GAN系列——EGBAD原理及缺陷检测实战

2023-12-17 19:21:14

AI教程

转转搜索少无结果模块简介及技术实现

2023-12-17 19:38:14

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索