高斯分布及其在MLE中的应用

释放双眼,带上耳机,听听看~!
这篇文章介绍了高斯分布在最大似然估计(MLE)中的应用,以及一维情况下的数学推导和公式推导。同时也讲解了高斯分布的概率密度函数和其在机器学习中的重要性。

高斯分布

数学期望:μ

方差:σ^2

标准差:σ

随机变量:x

exp:e为底(后续括号内的为幂次)

一、一维情况 MLE

高斯分布在机器学习中占有举足轻重的作用。在 MLE 方法中:

θ=(μ,Σ)=(μ,σ2),θMLE=argmaxθlog⁡p(X∣θ)=iidargmaxθ∑i=1Nlog⁡p(xi∣θ)theta=(mu,Sigma)=(mu,sigma^{2}),theta_{MLE}=mathop{argmax}limits _{theta}log p(X|theta)mathop{=}limits _{iid}mathop{argmax}limits _{theta}sumlimits _{i=1}^{N}log p(x_{i}|theta)

MLE的连等号是因为:log⁡P(X∣θ)=log⁡∏i=1Np(xi∣θ)=∑i=1Nlog⁡p(xi∣θ)log P(X mid theta)=log prod_{i=1}^{N} pleft(x_{i} mid thetaright)=sum_{i=1}^{N} log pleft(x_{i} mid thetaright)

argmax : 比如f(x)中,x就是变量(arg), arg是argument,即自变量, arg max 意思是 使后面式子取到 max值 时的 变量取值

一般地,高斯分布的概率密度函数PDF(probability density function)写为:

p(x∣μ,Σ)=1(2π)p/2∣Σ∣1/2e−12(x−μ)TΣ−1(x−μ)p(x|mu,Sigma)=frac{1}{(2pi)^{p/2}|Sigma|^{1/2}}e^{-frac{1}{2}(x-mu)^{T}Sigma^{-1}(x-mu)}

带入 MLE 中我们考虑一维的情况

log⁡p(X∣θ)=∑i=1Nlog⁡p(xi∣θ)=∑i=1Nlog⁡12πσexp⁡(−(xi−μ)2/2σ2)log p(X|theta)=sumlimits _{i=1}^{N}log p(x_{i}|theta)=sumlimits _{i=1}^{N}logfrac{1}{sqrt{2pi}sigma}exp(-(x_{i}-mu)^{2}/2sigma^{2})
=∑i=1N[log⁡12x+log⁡1σ−(xi−μ)22σ2]=sum_{i=1}^{N}left[log frac{1}{sqrt{2 x}}+log frac{1}{sigma}-frac{left(x_{i}-muright)^{2}}{2 sigma^{2}}right]

首先对 μmu 的极值可以得到 :( μmu相对容易)

μMLE=argmaxμlog⁡p(X∣θ)=argmaxμ∑i=1N(xi−μ)2mu_{MLE}=mathop{argmax}limits _{mu}log p(X|theta)=mathop{argmax}limits _{mu}sumlimits _{i=1}^{N}(x_{i}-mu)^{2}

于是:(其实就是均值,且μMLE=μmu_{MLE} = mu)

∂∂μ∑i=1N(xi−μ)2=0⟶μMLE=1N∑i=1Nxifrac{partial}{partialmu}sumlimits _{i=1}^{N}(x_{i}-mu)^{2}=0longrightarrowmu_{MLE}=frac{1}{N}sumlimits _{i=1}^{N}x_{i}

其次对 θtheta 中的另一个参数 σsigma ,有:

σMLE=argmaxσlog⁡p(X∣θ)=argmaxσ∑i=1N[−log⁡σ−12σ2(xi−μ)2]=argminσ∑i=1N[log⁡σ+12σ2(xi−μ)2]begin{aligned}
sigma_{MLE}=mathop{argmax}limits _{sigma}log p(X|theta)&=mathop{argmax}limits _{sigma}sumlimits _{i=1}^{N}[-logsigma-frac{1}{2sigma^{2}}(x_{i}-mu)^{2}]
&=mathop{argmin}limits _{sigma}sumlimits _{i=1}^{N}[logsigma+frac{1}{2sigma^{2}}(x_{i}-mu)^{2}]
end{aligned}

于是:

∂∂σ∑i=1N[log⁡σ+12σ2(xi−μ)2]=0⟶σMLE2=1N∑i=1N(xi−μ)2frac{partial}{partialsigma}sumlimits _{i=1}^{N}[logsigma+frac{1}{2sigma^{2}}(x_{i}-mu)^{2}]=0longrightarrowsigma_{MLE}^{2}=frac{1}{N}sumlimits _{i=1}^{N}(x_{i}-mu)^{2}

值得注意的是,上面的推导中,首先对 μmu 求 MLE, 然后利用这个结果求 σMLEsigma_{MLE} ,因此可以预期的是对数据集求期望时 ED[μMLE]mathbb{E}_{mathcal{D}}[mu_{MLE}] 是无偏差的:

ED[μMLE]=ED[1N∑i=1Nxi]=1N∑i=1NED[xi]=μmathbb{E}_{mathcal{D}}[mu_{MLE}]=mathbb{E}_{mathcal{D}}[frac{1}{N}sumlimits _{i=1}^{N}x_{i}]=frac{1}{N}sumlimits _{i=1}^{N}mathbb{E}_{mathcal{D}}[x_{i}]=mu

但是当对 σMLEsigma_{MLE} 求 期望的时候由于使用了单个数据集的 μMLEmu_{MLE},因此对所有数据集求期望的时候我们会发现 σMLEsigma_{MLE}有偏的:

有偏的原因是因为用样本均值μMLEmu_{MLE}代替总体均值,假如本身系统设计时均值是已知的。只用MLE算方差的话,除以n也还是无偏估计

另外、如果E[μ^]=μE[hat{mu}] = mu那么,像这种样子我们就认为他是无偏的,如果 ≠ 则是无偏的

补充:下述公式中倒数第二行变化,是因为离散型随机变量方差计算公式:(只要未知数套上了一层E,默认就是常数处理了。)

D(X)=E((X−E(X))2)=E(X2)−E2(X)D(X)=Eleft((X-E(X))^{2}right)=Eleft(X^{2}right)-E^{2}(X)

ED[σMLE2]=ED[1N∑i=1N(xi−μMLE)2]=ED[1N∑i=1N(xi2−2xiμMLE+μMLE2)=ED[1N∑i=1Nxi2−μMLE2]=ED[1N∑i=1Nxi2−μ2−(μMLE2−μ2)]=ED[1N∑i=1Nxi2−μ2]−ED[μMLE2−μ2]=1N∑i=1N(ED(xi2)−μ2)−(ED[μMLE2]−ED2[μMLE])=σ2−(ED[μMLE2]−μ2)=σ2−(ED[μMLE2]−ED2[μMLE])=σ2−Var[μMLE]=σ2−Var[1N∑i=1Nxi]=σ2−1N2∑i=1NVar[xi]=N−1Nσ2begin{aligned}
mathbb{E}_{mathcal{D}}[sigma_{MLE}^{2}]&=mathbb{E}_{mathcal{D}}[frac{1}{N}sumlimits _{i=1}^{N}(x_{i}-mu_{MLE})^{2}]=mathbb{E}_{mathcal{D}}[frac{1}{N}sumlimits _{i=1}^{N}(x_{i}^{2}-2x_{i}mu_{MLE}+mu_{MLE}^{2})
&=mathbb{E}_{mathcal{D}}[frac{1}{N}sumlimits _{i=1}^{N}x_{i}^{2}-mu_{MLE}^{2}]=mathbb{E}_{mathcal{D}}[frac{1}{N}sumlimits _{i=1}^{N}x_{i}^{2}-mu^{2}-(mu_{MLE}^{2}-mu^{2})]
&= mathbb{E}_{mathcal{D}}[frac{1}{N}sumlimits _{i=1}^{N}x_{i}^{2}-mu^{2}]-mathbb{E}_{mathcal{D}}[mu_{MLE}^{2}-mu^{2}]
&=frac{1}{N} sum_{i=1}^{N}({mathbb{E}_{mathcal{D}}left(x_{i}^{2}right)-mu^{2}})-(mathbb{E}_{mathcal{D}}[mu_{MLE}^{2}]-mathbb{E}_{mathcal{D}}^{2}[mu_{MLE}])&= sigma^{2}-(mathbb{E}_{mathcal{D}}[mu_{MLE}^{2}]-mu^{2})=sigma^{2}-(mathbb{E}_{mathcal{D}}[mu_{MLE}^{2}]-mathbb{E}_{mathcal{D}}^{2}[mu_{MLE}])=sigma^{2}-Var[mu_{MLE}]&=sigma^{2}-Var[frac{1}{N}sumlimits _{i=1}^{N}x_{i}]=sigma^{2}-frac{1}{N^{2}}sumlimits _{i=1}^{N}Var[x_{i}]=frac{N-1}{N}sigma^{2}
end{aligned}

可以理解为当 μmuμMLEmu_{M L E} 就已经确定了所有 xix_{i} 的和等于 NμMLEN mu_{M L E} ,也就是说当 N-1 个 xix_{i} 确定以后,第 N 个 xix_{i} 也就被确定了,所以少了一个”自由度”,因此E[σMLE2]=N−1Nσ2Eleft[sigma_{M L E}^{2}right]=frac{N-1}{N} sigma^{2}

所以真正的σ2sigma^2为:

σ^2=1N−1∑i=1N(xi−μMLE)2hat{sigma}^{2}=frac{1}{N-1}sumlimits _{i=1}^{N}(x_{i}-mu_{MLE})^{2}

得到结论:求得有偏的方差,将样本总数减一即为无偏的方差(有偏的方差 < 无偏的方差) 方差往小的方向估计了,也就是用极大似然估计确实会带来一定的偏差,对于高斯分布来说就是估计小了

也很好理解,因为样本是总体的一部分,而方差是所有样本的分布情况,随着样本的增加,方差会增大

此外,在抽样时,样本落在中间区域的概率大,所以抽样的数据离散程度小于总体,所以抽样方差小,也很好理解

二、多维情况

多维高斯分布表达式为:

x∼iidN(μ,Σ)=p(x∣μ,Σ)=1(2π)D/2∣Σ∣1/2exp⁡(−12(x−μ)TΣ−1(x−μ)⏟二次型 )x∈Rp,r⋅vx=(x1x2⋮xp)μ=(μ1μ2⋮μp)Σ=[σ11σ12⋯σ1pσ21σ22⋯σ2p⋮⋮⋱⋮σp1σp2⋯σpp]p×pbegin{array}{c}
x stackrel{i i d}{sim} N(mu, Sigma)=p(x|mu,Sigma)=frac{1}{(2 pi)^{D / 2}|Sigma|^{1 / 2}} exp (-frac{1}{2} underbrace{(x-mu)^{T} Sigma^{-1}(x-mu)}_{text {二次型 }})
x in mathbb{R}^{p}, r cdot v
x=left(begin{array}{c}
x_{1}
x_{2}
vdots
x_{p}
end{array}right) mu=left(begin{array}{c}
mu_{1}
mu_{2}
vdots
mu_{p}
end{array}right) Sigma=left[begin{array}{cccc}
sigma_{11} & sigma_{12} & cdots & sigma_{1 p}
sigma_{21} & sigma_{22} & cdots & sigma_{2 p}
vdots & vdots & ddots & vdots
sigma_{p 1} & sigma_{p 2} & cdots & sigma_{p p}
end{array}right]_{p times p}
end{array}

Σ Sigma一般是半正定的, 在本次证明中假设是正定的, 即所有的特征值都是正的,没有 0 。

其中 x,μ∈Rp,Σ∈Rp×px,muinmathbb{R}^{p},Sigmainmathbb{R}^{ptimes p}ΣSigma 为协方差矩阵,一般而言也是半正定矩阵。这里我们只考虑正定矩阵。对于我们高维的高斯分布,未知数只有自变量xx,其余的μmuΣSigma都可以当做常量处理。首先我们处理指数上的数字,指数上的数字可以记为 xxμmu 之间的马氏距离。

  • 马氏距离

(x−μ)TΣ−1(x−μ)为马氏距离(x与μ之间,当Σ为I时马氏距离即为欧氏距离。sqrt{(x-mu)^{T}Sigma ^{-1}(x-mu)}为马氏距离(x与mu之间,当Sigma为I时马氏距离即为欧氏距离。

  • 正定矩阵与半正定矩阵

给定一个大小为 n×nn times n 的实对称矩阵 AA ,若对于任意长度为 nn 的非零向量 xboldsymbol{x} ,有 xTAx>0boldsymbol{x}^{T} A boldsymbol{x}>0 恒成立,则矩阵 AA 是一个正定矩阵,有 xTAx≥0boldsymbol{x}^{T} A boldsymbol{x} geq 0 恒成立,则矩阵 AA 是一个半正定矩阵。

三、证明高斯分布等高线为”椭圆”

  • 协方差矩阵的特征值分解

任意的N×NN times N实对称矩阵都有NN个线性无关的特征向量。并且这些特征向量都可以正交单位化而得到一组正交且模为 1 的向量。故实对称矩阵ΣSigma可被分解成Σ=UΛUTSigma=ULambda U^{T}

 将 Σ 进行特征分解, Σ=UΛUT 其中 UUT=UTU=I,=diag⁡i=1,2,⋯ ,p(λi),U=(u1,u2,⋯ ,up)p×p 因此 Σ=UΛUT=(u1u2⋯up)[λ10⋯00λ2⋯0⋮⋮⋱⋮00⋯λp](u1Tu2T⋮upT)=(u1λ1u2λ2⋯upλp)(u1Tu2T⋮upT)=∑i=1puiλiuiTΣ−1=(UΛUT)−1=(UT)−1Λ−1U−1=UΛ−1UT=∑i=1pui1λiuiT, 其中 Λ−1=diag⁡(1λi),i=1,2,⋯ ,pbegin{gathered}
& text { 将 } Sigma text { 进行特征分解, } Sigma=U Lambda U^T
& text { 其中 } U U^T=U^T U=I, quad underset{i=1,2, cdots, p}{=operatorname{diag}}left(lambda_iright), U=left(u_1, u_2, cdots, u_pright)_{p times p}
& text { 因此 } Sigma=U Lambda U^T
& =left(begin{array}{llll}
u_1 & u_2 & cdots & u_p
end{array}right)left[begin{array}{cccc}
lambda_1 & 0 & cdots & 0
0 & lambda_2 & cdots & 0
vdots & vdots & ddots & vdots
0 & 0 & cdots & lambda_p
end{array}right]left(begin{array}{c}
u_1^T
u_2^T
vdots
u_p^T
end{array}right)
& =left(begin{array}{llll}
u_1 lambda_1 & u_2 lambda_2 & cdots & u_p lambda_p
end{array}right)left(begin{array}{c}
u_1^T
u_2^T
vdots
u_p^T
end{array}right)
& =sum_{i=1}^p u_i lambda_i u_i^T
& Sigma^{-1}=left(U Lambda U^Tright)^{-1}=left(U^Tright)^{-1} Lambda^{-1} U^{-1}=U Lambda^{-1} U^T=sum_{i=1}^p u_i frac{1}{lambda_i} u_i^T &text {, 其中 } Lambda^{-1}=operatorname{diag}left(frac{1}{lambda_i}right), i=1,2, cdots, p
&
end{gathered}

将概率密度整理成椭圆方程的形式

Δ=(x−μ)TΣ−1(x−μ)=(x−μ)T∑i=1pui1λiuiT(x−μ)=∑i=1p(x−μ)Tui1λiuiT(x−μ)( 令 yi=(x−μ)Tui)=∑i=1pyi1λiyiT=∑i=1pyi2λibegin{array}{l}
Delta=(x-mu)^{T} Sigma^{-1}(x-mu)
=(x-mu)^{T} sum_{i=1}^{p} u_{i} frac{1}{lambda_{i}} u_{i}^{T}(x-mu)
=sum_{i=1}^{p}(x-mu)^{T} u_{i} frac{1}{lambda_{i}} u_{i}^{T}(x-mu)
left(text { 令 } y_{i}=(x-mu)^{T} u_{i}right)
=sum_{i=1}^{p} y_{i} frac{1}{lambda_{i}} y_{i}^{T}
=sum_{i=1}^{p} frac{y_{i}^{2}}{lambda_{i}}
end{array}

上式中yi=(x−μ)Tuiy_{i}=(x-mu )^{T}u _{i}可以理解为将xx减去均值进行中心化以后再投影到uiu _{i} (uiu_{i} 是正交矩阵的一个基向量,代表一个坐标轴)方向上,相当于做了一次坐标轴变换。 yiy_{i}x−μx-mu 在特征向量 uiu_{i}​上的投影长度,因此上式子就是 ΔDelta 取不同值时的同心椭圆。

xx的维度为2即p=2p=2Δ=y12λ1+y22λ2Delta =frac{y_{1}^{2}}{lambda _{1}}+frac{y_{2}^{2}}{lambda _{2}},得到类似椭圆方程的等式,所以也就可以解释为什么其等高线是椭圆形状。二维高斯分布的图像如下所示:

高斯分布及其在MLE中的应用

所以随着xx的取值不断变化,即在维度为2的情况下,椭圆的长轴和短轴的长度也随着唯一自变量xx不断改变,切面也就不断变大和变小。

四、高斯分布的局限性

  1. 参数过多
    协方差矩阵 Σp×pSigma_{p times p} 中的参数共有 1+2+⋯+p=p(p+1)21+2+cdots+p=frac{p(p+1)}{2} 个 ( Σp×pSigma_{p times p} 是对称矩阵(参数个数少一半左右))),因此当 xx 的维度 pp 很大时,高斯分布的参数就会有很多,其计算复杂度为 O(p2)Oleft(p^{2}right)) 。
    可以通过假设高斯分布的协方差矩阵为对角矩阵来减少参数,当高斯分布的协方差矩阵为对角矩阵(仅对角线上有参数)时,无需特征值分解,特征向量的方向就会和原坐标轴的方向平行,因此高斯分布的等高线 (同心椭圆) 就 不会倾斜。
    另外如果在高斯分布的协方差矩阵为对角矩阵为对角矩阵的基础上使得其特征值全部相等 (即 λ1=λ2=⋯=λi lambda_{1}=lambda_{2}=cdots=lambda_{i} ), 则高斯分布的等高线就会成为一个圆形,而且不会倾斜,称为各向同性

高斯分布及其在MLE中的应用

ΣSigma若退化为对角矩阵,那么(yi=(x−μ)Txi)left(y_{i}=(x-mu)^{T} x_{i}right),即每一个样本x代表它本身,U已经不存在(SVD分解,将U代表旋转,^代表特征值),方向与若xix_{i}保持方正(而每一个xix_{i}独立同分布)。 ^ 中的λilambda_{i}均相等,则持有特向同性,退化为圆

  1. 单个高斯分布是单峰,对有多个峰的数据分布不能得到好的结果,拟合能力有限
    解决方案是使用多个高斯分布,比如高斯混合GMM模型。

五、求高斯分布的边缘概率与条件概率

  1. 概述

首先将变量、均值和方差进行划分:

x=(xaxb),其中xa是m维的,xb是n维的。x=left(begin{array}{l}x_a x_bend{array}right), 其中 x_a 是 m 维的, x_b 是 n 维的。
μ=(μaμb)Σ=(ΣaaΣabΣbaΣbb)mu=left(begin{array}{c}
mu_a
mu_b
end{array}right) Sigma=left(begin{array}{cc}
Sigma_{a a} & Sigma_{a b}
Sigma_{b a} & Sigma_{b b}
end{array}right)

本部分旨在根据上述已知来求 P(xa),P(xb∣xa),P(xb),P(xa∣xb)Pleft(x_aright), Pleft(x_b mid x_aright), Pleft(x_bright), Pleft(x_a mid x_bright)
2. 定理
以下定义为推导过程中主要用到的定理,这里只展示定理的内容,不进行证明:

已知x∼N(μ,Σ),x∈Rpy=Ax+B,y∈Rq结论:y∼N(Aμ+B,AΣAT)已知 x sim N(mu, Sigma), x in mathbb{R}^p
y=A x+B, y in mathbb{R}^q
结论: y sim Nleft(A mu+B, A Sigma A^Tright)

一个简单但不严谨的证明:

E[y]=E[Ax+B]=AE[x]+B=Aμ+BVar⁡[y]=Var⁡[Ax+B]=Var⁡[Ax]+Var⁡[B]=AVar⁡[x]AT+0=AΣATbegin{gathered}
E[y]=E[A x+B]=A E[x]+B=A mu+B
operatorname{Var}[y]=operatorname{Var}[A x+B]
=operatorname{Var}[A x]+operatorname{Var}[B]
=A operatorname{Var}[x] A^T+0
=A Sigma A^T
end{gathered}

  1. 求边缘概率 P(xa)Pleft(x_aright)

xa=(Im0n)⏟A(xaxb)⏟xE[xa]=(Im0n)(μaμb)=μaVar⁡[xa]=(Im0n)(ΣaaΣabΣbaΣbb)(Im0n)=(ΣaaΣab)(Im0n)=Σaabegin{gathered}
x_a=underbrace{left(begin{array}{ll}
I_m & 0_n
end{array}right)}_A underbrace{left(begin{array}{c}
x_a
x_b
end{array}right)}_x
Eleft[x_aright]=left(begin{array}{ll}
I_m & 0_n
end{array}right)left(begin{array}{c}
mu_a
mu_b
end{array}right)=mu_a
operatorname{Var}left[x_aright]=left(begin{array}{ll}
I_m & 0_n
end{array}right)left(begin{array}{cc}
Sigma_{a a} & Sigma_{a b}
Sigma_{b a} & Sigma_{b b}
end{array}right)left(begin{array}{c}
I_m
0_n
end{array}right)
=left(begin{array}{ll}
Sigma_{a a} & Sigma_{a b}
end{array}right)left(begin{array}{c}
I_m
0_n
end{array}right)=Sigma_{a a}
end{gathered}

所以 xa∼N(μa,Σaa)x_a sim Nleft(mu_a, Sigma_{a a}right) ,同理 xb∼N(μb,Σbb)x_b sim Nleft(mu_b, Sigma_{b b}right)
4. 求条件概率 P(xb∣xa)Pleft(x_b mid x_aright)

 构造 {xb⋅a=xb−ΣbaΣaa−1xaμb⋅a=μb−ΣbaΣaa−1μaΣbb⋅a=Σbb−ΣbaΣaa−1Σab ( Σbb⋅a 是 Σaa 的舒尔补) xb⋅a=(ΣbaΣaa−1In)⏟A(xaxb)⏟xE[xb⋅a]=(−ΣbaΣaa−1In)(μaμb)=μb−ΣbaΣaa−1μa=μb⋅aVar⁡[xb⋅a]=(−ΣbaΣaa−1In)(ΣaaΣabΣbaΣbb)(−Σaa−1ΣbaTIn)=(−ΣbaΣaa−1Σaa+Σba−ΣbaΣaa−1Σab+Σbb)=(0−ΣbaΣaa−1Σab+Σbb)(−Σaa−1ΣbaTIn)=Σbb−ΣbaΣaa−1Σab=Σbb⋅abegin{gathered}
& text { 构造 }left{begin{array}{c}
x_{b cdot a}=x_b-Sigma_{b a} Sigma_{a a}^{-1} x_a
mu_{b cdot a}=mu_b-Sigma_{b a} Sigma_{a a}^{-1} mu_a
Sigma_{b b cdot a}=Sigma_{b b}-Sigma_{b a} Sigma_{a a}^{-1} Sigma_{a b}
end{array}right.
& text { ( } Sigma_{b b cdot a} text { 是 } Sigma_{a a} text { 的舒尔补) }
& x_{b cdot a}=underbrace{left(begin{array}{ll}
Sigma_{b a} Sigma_{a a}^{-1} & I_n
end{array}right)}_A underbrace{left(begin{array}{c}
x_a
x_b
end{array}right)}_x
& Eleft[x_{b cdot a}right]=left(begin{array}{cc}
-Sigma_{b a} Sigma_{a a}^{-1} & I_n
end{array}right)left(begin{array}{l}
mu_a
mu_b
end{array}right)=mu_b-Sigma_{b a} Sigma_{a a}^{-1} mu_a=mu_{b cdot a}
& operatorname{Var}left[x_{b cdot a}right]=left(begin{array}{cc}
-Sigma_{b a} Sigma_{a a}^{-1} & I_n
end{array}right)left(begin{array}{cc}
Sigma_{a a} & Sigma_{a b}
Sigma_{b a} & Sigma_{b b}
end{array}right)left(begin{array}{c}
-Sigma_{a a}^{-1} Sigma_{b a}^T
I_n
end{array}right)
& =left(begin{array}{cc}
-Sigma_{b a} Sigma_{a a}^{-1} Sigma_{a a}+Sigma_{b a} & -Sigma_{b a} Sigma_{a a}^{-1} Sigma_{a b}+Sigma_{b b}
end{array}right)
& =left(begin{array}{ll}
0 & -Sigma_{b a} Sigma_{a a}^{-1} Sigma_{a b}+Sigma_{b b}
end{array}right)left(begin{array}{c}
-Sigma_{a a}^{-1} Sigma_{b a}^T
I_n
end{array}right)
& =Sigma_{b b}-Sigma_{b a} Sigma_{a a}^{-1} Sigma_{a b}
& =Sigma_{b b cdot a}
&
end{gathered}

现在可以得到 xb⋅a∼N(μb⋅a,Σbb⋅a)x_{b cdot a} sim Nleft(mu_{b cdot a}, Sigma_{b b cdot a}right) 。根据 xbx_bxb⋅ax_{b cdot a} 的关系可以得到 xb∣xax_b mid x_a 的分布:

xb=xb⋅a⏟x+ΣbaΣaa−1xa⏟B(在求条件概率P(xb∣xa)时xa对于xb来说可以看做已知,因此上式中ΣbaΣaa−1xa看做常量B)E[xb∣xa]=μb⋅a+ΣbaΣaa−1xaVar⁡[xb∣xa]=Var⁡[xb⋅a]=Σbb⋅ax_b=underbrace{x_{b cdot a}}_x+underbrace{Sigma_{b a} Sigma_{a a}^{-1} x_a}_B
(在求条件概率 Pleft(x_b mid x_aright) 时 x_a 对于 x_b 来说可以看做已知, 因此上式中 Sigma_{b a} Sigma_{a a}^{-1} x_a 看做常量 B )
begin{gathered}
Eleft[x_b mid x_aright]=mu_{b cdot a}+Sigma_{b a} Sigma_{a a}^{-1} x_a
operatorname{Var}left[x_b mid x_aright]=operatorname{Var}left[x_{b cdot a}right]=Sigma_{b b cdot a}
end{gathered}

因此可以得到 xb∣xa∼N(μb⋅a+ΣbaΣaa−1xa,Σbb⋅a)x_b mid x_a sim Nleft(mu_{b cdot a}+Sigma_{b a} Sigma_{a a}^{-1} x_a, Sigma_{b b cdot a}right), 同理可以得到 xa∣xb∼N(μa⋅b+ΣabΣbb−1xb,Σaa⋅b)x_a mid x_b sim Nleft(mu_{a cdot b}+Sigma_{a b} Sigma_{b b}^{-1} x_b, Sigma_{a a cdot b}right)

六、求高斯分布的联合概率分布

  1. 概述

p(x)=N(x∣μ,Λ−1)p(y∣x)=N(y∣Ax+b,L−1)Λ和L是精度矩阵(precisionmatrix),precisionmatrix=( covariance matrix )T。begin{gathered}
p(x)=Nleft(x mid mu, Lambda^{-1}right)
p(y mid x)=Nleft(y mid A x+b, L^{-1}right)
Lambda 和 L 是精度矩阵 (precision matrix), precision matrix =(text { covariance matrix })^T 。
end{gathered}

本部分旨在根据上述已知来求 p(y),p(x∣y)p(y), p(x mid y)

  1. 求解 p(y)p(y)

由上述已知可以确定 yyxx 的关系为线性高斯模型,εvarepsilon是人为定义的噪声,分布也是人为设定。

yyxx 符合下述关系:

y=Ax+b+ε,ε∼N(0,L−1)y=A x+b+varepsilon, varepsilon sim Nleft(0, L^{-1}right)

​ 然后求解 yy 的均值和方差:

E[y]=E[Ax+b+ε]=E[Ax+b]+E[ε]=Aμ+bVar⁡[y]=Var⁡[Ax+b+ε]=Var⁡[Ax+b]+Var⁡[ε]=AΛ−1AT+L−1begin{gathered}
E[y]=E[A x+b+varepsilon]=E[A x+b]+E[varepsilon]=A mu+b
operatorname{Var}[y]=operatorname{Var}[A x+b+varepsilon]=operatorname{Var}[A x+b]+operatorname{Var}[varepsilon]=A Lambda^{-1} A^T+L^{-1}
end{gathered}

​ 则可以得出 y∼N(Aμ+b,L−1+AΛ−1AT)y sim Nleft(A mu+b, L^{-1}+A Lambda^{-1} A^Tright)

  1. 求解 p(x∣y)p(x mid y)

求解 p(x∣y)p(x mid y) 需要首先求解 xxyy 的联合分布,然后根据上一部分的公式直接得到 p(x∣y)p(x mid y)

构造z=(xy)∼N([μAμ+b],[Λ−1ΔΔTL−1+AΛ−1AT])现在需要求解ΔΔ=Cov⁡(x,y)=E[(x−E[x])(y−E[y])T]=E[(x−μ)(y−Aμ−b)T]=E[(x−μ)(Ax+b+ε−Aμ−b)T]=E[(x−μ)(Ax−Aμ+ε)T]=E[(x−μ)(Ax−Aμ)T+(x−μ)εT]=E[(x−μ)(Ax−Aμ)T]+E[(x−μ)εT](因为x⊥ε,所以(x−μ)⊥ε,所以E[(x−μ)εT]=E[(x−μ)]E[εT])=E[(x−μ)(Ax−Aμ)T]+E[(x−μ)]E[εT]=E[(x−μ)(Ax−Aμ)T]+E[(x−μ)]⋅0=E[(x−μ)(Ax−Aμ)T]=E[(x−μ)(x−μ)TAT]=E[(x−μ)(x−μ)T]AT=Var⁡[x]AT=Λ−1AT由此可得z=(xy)∼N([μAμ+b],[Λ−1Λ−1ATAΛ−1L−1+AΛ−1AT])套用上一部分的公式可以得到x∣y∼N(μx⋅y+Λ−1AT(L−1+AΛ−1AT)−1y,Σxx⋅y)构造 z=left(begin{array}{l}x yend{array}right) sim Nleft(left[begin{array}{c}mu A mu+bend{array}right],left[begin{array}{cc}Lambda^{-1} & Delta Delta^T & L^{-1}+A Lambda^{-1} A^Tend{array}right]right)
现在需要求解 Delta
begin{gathered}
Delta=operatorname{Cov}(x, y)
=Eleft[(x-E[x])(y-E[y])^Tright]
=Eleft[(x-mu)(y-A mu-b)^Tright]
=Eleft[(x-mu)(A x+b+varepsilon-A mu-b)^Tright]
=Eleft[(x-mu)(A x-A mu+varepsilon)^Tright]
=Eleft[(x-mu)(A x-A mu)^T+(x-mu) varepsilon^Tright]
=Eleft[(x-mu)(A x-A mu)^Tright]+Eleft[(x-mu) varepsilon^Tright]
(因为 x perp varepsilon, 所以 (x-mu) perp varepsilon, 所以 Eleft[(x-mu) varepsilon^Tright]=E[(x-mu)] Eleft[varepsilon^Tright] )
=Eleft[(x-mu)(A x-A mu)^Tright]+E[(x-mu)] Eleft[varepsilon^Tright]
=Eleft[(x-mu)(A x-A mu)^Tright]+E[(x-mu)] cdot 0
=Eleft[(x-mu)(A x-A mu)^Tright]
=Eleft[(x-mu)(x-mu)^T A^Tright]
=Eleft[(x-mu)(x-mu)^Tright] A^T
=operatorname{Var}[x] A^T
=Lambda^{-1} A^T

由此可得 z=left(begin{array}{l}x yend{array}right) sim Nleft(left[begin{array}{c}mu A mu+bend{array}right],left[begin{array}{cc}Lambda^{-1} & Lambda^{-1} A^T A Lambda^{-1} & L^{-1}+A Lambda^{-1} A^Tend{array}right]right)
套用上一部分的公式可以得到 x mid y sim Nleft(mu_{x cdot y}+Lambda^{-1} A^Tleft(L^{-1}+A Lambda^{-1} A^Tright)^{-1} y, Sigma_{x x cdot y}right)
end{gathered}

本网站的内容主要来自互联网上的各种资源,仅供参考和信息分享之用,不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益,请联系我们,我们将尽快采取行动,包括删除或更正。
AI教程

相机标定方法及应用场景详解

2023-12-17 20:10:14

AI教程

解决【 error: Microsoft Visual C++ 14.0 or greater is required】安装问题

2023-12-17 20:16:14

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索