释放双眼，带上耳机，听听看~！

这篇文章介绍了高斯分布在最大似然估计（MLE）中的应用，以及一维情况下的数学推导和公式推导。同时也讲解了高斯分布的概率密度函数和其在机器学习中的重要性。

高斯分布

数学期望：μ

方差：σ^2

标准差：σ

随机变量：x

exp：e为底（后续括号内的为幂次）

一、一维情况 MLE

高斯分布在机器学习中占有举足轻重的作用。在 MLE 方法中：

$θ=(μ,Σ)=(μ,σ2),θMLE=argmaxθlog⁡p(X∣θ)=iidargmaxθ∑i=1Nlog⁡p(xi∣θ)theta=(mu,Sigma)=(mu,sigma^{2}),theta_{MLE}=mathop{argmax}limits _{theta}log p(X|theta)mathop{=}limits _{iid}mathop{argmax}limits _{theta}sumlimits _{i=1}^{N}log p(x_{i}|theta)$

MLE的连等号是因为： $prod_{i=1}^{N} pleft(x_{i} mid thetaright)=sum_{i=1}^{N} log pleft(x_{i} mid thetaright)$

argmax : 比如f(x)中，x就是变量(arg), arg是argument，即自变量, arg max 意思是使后面式子取到 max值时的变量取值

一般地，高斯分布的概率密度函数PDF（probability density function）写为：

$p(x∣μ,Σ)=1(2π)p/2∣Σ∣1/2e−12(x−μ)TΣ−1(x−μ)p(x|mu,Sigma)=frac{1}{(2pi)^{p/2}|Sigma|^{1/2}}e^{-frac{1}{2}(x-mu)^{T}Sigma^{-1}(x-mu)}$

带入 MLE 中我们考虑一维的情况

$_{i=1}^{N}log p(x_{i}|theta)=sumlimits _{i=1}^{N}logfrac{1}{sqrt{2pi}sigma}exp(-(x_{i}-mu)^{2}/2sigma^{2})$
$=∑i=1N[log⁡12x+log⁡1σ−(xi−μ)22σ2]=sum_{i=1}^{N}left[log frac{1}{sqrt{2 x}}+log frac{1}{sigma}-frac{left(x_{i}-muright)^{2}}{2 sigma^{2}}right]$

首先对 $μ$ 的极值可以得到：（ $μ$ 相对容易）

$μMLE=argmaxμlog⁡p(X∣θ)=argmaxμ∑i=1N(xi−μ)2mu_{MLE}=mathop{argmax}limits _{mu}log p(X|theta)=mathop{argmax}limits _{mu}sumlimits _{i=1}^{N}(x_{i}-mu)^{2}$

于是：（其实就是均值，且 $μMLE=μmu_{MLE} = mu$ )

$_{i=1}^{N}(x_{i}-mu)^{2}=0longrightarrowmu_{MLE}=frac{1}{N}sumlimits _{i=1}^{N}x_{i}$

其次对 $θ$ 中的另一个参数 $σ$ ，有：

$sigma_{MLE}=mathop{argmax}limits _{sigma}log p(X|theta)&=mathop{argmax}limits _{sigma}sumlimits _{i=1}^{N}[-logsigma-frac{1}{2sigma^{2}}(x_{i}-mu)^{2}] &=mathop{argmin}limits _{sigma}sumlimits _{i=1}^{N}[logsigma+frac{1}{2sigma^{2}}(x_{i}-mu)^{2}] end{aligned}$

于是：

$_{i=1}^{N}[logsigma+frac{1}{2sigma^{2}}(x_{i}-mu)^{2}]=0longrightarrowsigma_{MLE}^{2}=frac{1}{N}sumlimits _{i=1}^{N}(x_{i}-mu)^{2}$

值得注意的是，上面的推导中，首先对 $μ$ 求 MLE，然后利用这个结果求 $σMLEsigma_{MLE}$ ，因此可以预期的是对数据集求期望时 $ED[μMLE]mathbb{E}_{mathcal{D}}[mu_{MLE}]$ 是无偏差的：

$ED[μMLE]=ED[1N∑i=1Nxi]=1N∑i=1NED[xi]=μmathbb{E}_{mathcal{D}}[mu_{MLE}]=mathbb{E}_{mathcal{D}}[frac{1}{N}sumlimits _{i=1}^{N}x_{i}]=frac{1}{N}sumlimits _{i=1}^{N}mathbb{E}_{mathcal{D}}[x_{i}]=mu$

但是当对 $σMLEsigma_{MLE}$ 求期望的时候由于使用了单个数据集的 $μMLEmu_{MLE}$ ，因此对所有数据集求期望的时候我们会发现 $σMLEsigma_{MLE}$ 是有偏的：

有偏的原因是因为用样本均值 $μMLEmu_{MLE}$ 代替总体均值，假如本身系统设计时均值是已知的。只用MLE算方差的话，除以n也还是无偏估计

另外、如果 $E[μ^]=μE[hat{mu}] = mu$ 那么，像这种样子我们就认为他是无偏的，如果 ≠ 则是无偏的

补充：下述公式中倒数第二行变化，是因为离散型随机变量方差计算公式：(只要未知数套上了一层E，默认就是常数处理了。)

$D(X)=E((X−E(X))2)=E(X2)−E2(X)D(X)=Eleft((X-E(X))^{2}right)=Eleft(X^{2}right)-E^{2}(X)$

$mathbb{E}_{mathcal{D}}[sigma_{MLE}^{2}]&=mathbb{E}_{mathcal{D}}[frac{1}{N}sumlimits _{i=1}^{N}(x_{i}-mu_{MLE})^{2}]=mathbb{E}_{mathcal{D}}[frac{1}{N}sumlimits _{i=1}^{N}(x_{i}^{2}-2x_{i}mu_{MLE}+mu_{MLE}^{2}) &=mathbb{E}_{mathcal{D}}[frac{1}{N}sumlimits _{i=1}^{N}x_{i}^{2}-mu_{MLE}^{2}]=mathbb{E}_{mathcal{D}}[frac{1}{N}sumlimits _{i=1}^{N}x_{i}^{2}-mu^{2}-(mu_{MLE}^{2}-mu^{2})] &= mathbb{E}_{mathcal{D}}[frac{1}{N}sumlimits _{i=1}^{N}x_{i}^{2}-mu^{2}]-mathbb{E}_{mathcal{D}}[mu_{MLE}^{2}-mu^{2}] &=frac{1}{N} sum_{i=1}^{N}({mathbb{E}_{mathcal{D}}left(x_{i}^{2}right)-mu^{2}})-(mathbb{E}_{mathcal{D}}[mu_{MLE}^{2}]-mathbb{E}_{mathcal{D}}^{2}[mu_{MLE}])&= sigma^{2}-(mathbb{E}_{mathcal{D}}[mu_{MLE}^{2}]-mu^{2})=sigma^{2}-(mathbb{E}_{mathcal{D}}[mu_{MLE}^{2}]-mathbb{E}_{mathcal{D}}^{2}[mu_{MLE}])=sigma^{2}-Var[mu_{MLE}]&=sigma^{2}-Var[frac{1}{N}sumlimits _{i=1}^{N}x_{i}]=sigma^{2}-frac{1}{N^{2}}sumlimits _{i=1}^{N}Var[x_{i}]=frac{N-1}{N}sigma^{2} end{aligned}$

可以理解为当 $μ$ 取 $μMLEmu_{M L E}$ 就已经确定了所有 $x_{i}$ 的和等于 $mu_{M L E}$ ，也就是说当 N-1 个 $x_{i}$ 确定以后，第 N 个 $x_{i}$ 也就被确定了，所以少了一个”自由度”，因此 $E[σMLE2]=N−1Nσ2Eleft[sigma_{M L E}^{2}right]=frac{N-1}{N} sigma^{2}$

所以真正的 $σ2sigma^2$ 为：

$σ^2=1N−1∑i=1N(xi−μMLE)2hat{sigma}^{2}=frac{1}{N-1}sumlimits _{i=1}^{N}(x_{i}-mu_{MLE})^{2}$

得到结论：求得有偏的方差，将样本总数减一即为无偏的方差（有偏的方差 < 无偏的方差）方差往小的方向估计了，也就是用极大似然估计确实会带来一定的偏差，对于高斯分布来说就是估计小了

也很好理解，因为样本是总体的一部分，而方差是所有样本的分布情况，随着样本的增加，方差会增大

此外，在抽样时，样本落在中间区域的概率大，所以抽样的数据离散程度小于总体，所以抽样方差小，也很好理解

二、多维情况

多维高斯分布表达式为：

$pi)^{D / 2}|Sigma|^{1 / 2}} exp (-frac{1}{2} underbrace{(x-mu)^{T} Sigma^{-1}(x-mu)}_{text {二次型 }}) x in mathbb{R}^{p}, r cdot v x=left(begin{array}{c} x_{1} x_{2} vdots x_{p} end{array}right) mu=left(begin{array}{c} mu_{1} mu_{2} vdots mu_{p} end{array}right) Sigma=left[begin{array}{cccc} sigma_{11} & sigma_{12} & cdots & sigma_{1 p} sigma_{21} & sigma_{22} & cdots & sigma_{2 p} vdots & vdots & ddots & vdots sigma_{p 1} & sigma_{p 2} & cdots & sigma_{p p} end{array}right]_{p times p} end{array}$

$Σ$ 一般是半正定的, 在本次证明中假设是正定的, 即所有的特征值都是正的，没有 0 。

其中 $x,μ∈Rp,Σ∈Rp×px,muinmathbb{R}^{p},Sigmainmathbb{R}^{ptimes p}$ ， $Σ$ 为协方差矩阵，一般而言也是半正定矩阵。这里我们只考虑正定矩阵。对于我们高维的高斯分布，未知数只有自变量 $x$ ，其余的 $μ$ 、 $Σ$ 都可以当做常量处理。首先我们处理指数上的数字，指数上的数字可以记为 $x$ 和 $μ$ 之间的马氏距离。

马氏距离

$(x−μ)TΣ−1(x−μ)为马氏距离（x与μ之间，当Σ为I时马氏距离即为欧氏距离。sqrt{(x-mu)^{T}Sigma ^{-1}(x-mu)}为马氏距离（x与mu之间，当Sigma为I时马氏距离即为欧氏距离。$

正定矩阵与半正定矩阵

给定一个大小为 $n \times n$ 的实对称矩阵 $A$ ，若对于任意长度为 $n$ 的非零向量 $x$ ，有 $xTAx>0boldsymbol{x}^{T} A boldsymbol{x}>0$ 恒成立，则矩阵 $A$ 是一个正定矩阵，有 $xTAx≥0boldsymbol{x}^{T} A boldsymbol{x} geq 0$ 恒成立，则矩阵 $A$ 是一个半正定矩阵。

三、证明高斯分布等高线为”椭圆”

协方差矩阵的特征值分解

任意的 $N \times N$ 实对称矩阵都有 $N$ 个线性无关的特征向量。并且这些特征向量都可以正交单位化而得到一组正交且模为 1 的向量。故实对称矩阵 $Σ$ 可被分解成 $U^{T}$ 。

$U^T & text { 其中 } U U^T=U^T U=I, quad underset{i=1,2, cdots, p}{=operatorname{diag}}left(lambda_iright), U=left(u_1, u_2, cdots, u_pright)_{p times p} & text { 因此 } Sigma=U Lambda U^T & =left(begin{array}{llll} u_1 & u_2 & cdots & u_p end{array}right)left[begin{array}{cccc} lambda_1 & 0 & cdots & 0 0 & lambda_2 & cdots & 0 vdots & vdots & ddots & vdots 0 & 0 & cdots & lambda_p end{array}right]left(begin{array}{c} u_1^T u_2^T vdots u_p^T end{array}right) & =left(begin{array}{llll} u_1 lambda_1 & u_2 lambda_2 & cdots & u_p lambda_p end{array}right)left(begin{array}{c} u_1^T u_2^T vdots u_p^T end{array}right) & =sum_{i=1}^p u_i lambda_i u_i^T & Sigma^{-1}=left(U Lambda U^Tright)^{-1}=left(U^Tright)^{-1} Lambda^{-1} U^{-1}=U Lambda^{-1} U^T=sum_{i=1}^p u_i frac{1}{lambda_i} u_i^T &text {, 其中 } Lambda^{-1}=operatorname{diag}left(frac{1}{lambda_i}right), i=1,2, cdots, p & end{gathered}$

将概率密度整理成椭圆方程的形式

$Delta=(x-mu)^{T} Sigma^{-1}(x-mu) =(x-mu)^{T} sum_{i=1}^{p} u_{i} frac{1}{lambda_{i}} u_{i}^{T}(x-mu) =sum_{i=1}^{p}(x-mu)^{T} u_{i} frac{1}{lambda_{i}} u_{i}^{T}(x-mu) left(text { 令 } y_{i}=(x-mu)^{T} u_{i}right) =sum_{i=1}^{p} y_{i} frac{1}{lambda_{i}} y_{i}^{T} =sum_{i=1}^{p} frac{y_{i}^{2}}{lambda_{i}} end{array}$

上式中 $yi=(x−μ)Tuiy_{i}=(x-mu )^{T}u _{i}$ 可以理解为将 $x$ 减去均值进行中心化以后再投影到 $u _{i}$ ( $u_{i}$ 是正交矩阵的一个基向量，代表一个坐标轴)方向上，相当于做了一次坐标轴变换。 $y_{i}$ 是 $x - μ$ 在特征向量 $u_{i}$ 上的投影长度，因此上式子就是 $Δ$ 取不同值时的同心椭圆。

当 $x$ 的维度为2即 $p = 2$ 时 $=frac{y_{1}^{2}}{lambda _{1}}+frac{y_{2}^{2}}{lambda _{2}}$ ，得到类似椭圆方程的等式，所以也就可以解释为什么其等高线是椭圆形状。二维高斯分布的图像如下所示：

高斯分布及其在MLE中的应用

所以随着 $x$ 的取值不断变化，即在维度为2的情况下，椭圆的长轴和短轴的长度也随着唯一自变量 $x$ 不断改变，切面也就不断变大和变小。

四、高斯分布的局限性

参数过多
协方差矩阵 $Σp×pSigma_{p times p}$ 中的参数共有 $1+2+⋯+p=p(p+1)21+2+cdots+p=frac{p(p+1)}{2}$ 个 ( $Σp×pSigma_{p times p}$ 是对称矩阵(参数个数少一半左右))），因此当 $x$ 的维度 $p$ 很大时，高斯分布的参数就会有很多，其计算复杂度为 $O(p2)Oleft(p^{2}right)$ ) 。
可以通过假设高斯分布的协方差矩阵为对角矩阵来减少参数，当高斯分布的协方差矩阵为对角矩阵(仅对角线上有参数)时，无需特征值分解，特征向量的方向就会和原坐标轴的方向平行，因此高斯分布的等高线 (同心椭圆) 就不会倾斜。
另外如果在高斯分布的协方差矩阵为对角矩阵为对角矩阵的基础上使得其特征值全部相等 (即 $lambda_{1}=lambda_{2}=cdots=lambda_{i}$ ）, 则高斯分布的等高线就会成为一个圆形，而且不会倾斜，称为各向同性。

高斯分布及其在MLE中的应用

$Σ$ 若退化为对角矩阵，那么 $(yi=(x−μ)Txi)left(y_{i}=(x-mu)^{T} x_{i}right)$ ，即每一个样本x代表它本身，U已经不存在（SVD分解，将U代表旋转，^代表特征值），方向与若 $x_{i}$ 保持方正（而每一个 $x_{i}$ 独立同分布）。 ^ 中的 $λilambda_{i}$ 均相等，则持有特向同性，退化为圆

单个高斯分布是单峰，对有多个峰的数据分布不能得到好的结果，拟合能力有限
解决方案是使用多个高斯分布，比如高斯混合GMM模型。

五、求高斯分布的边缘概率与条件概率

概述

首先将变量、均值和方差进行划分：

$x=(xaxb),其中xa是m维的,xb是n维的。x=left(begin{array}{l}x_a x_bend{array}right), 其中 x_a 是 m 维的, x_b 是 n 维的。$
$mu_a mu_b end{array}right) Sigma=left(begin{array}{cc} Sigma_{a a} & Sigma_{a b} Sigma_{b a} & Sigma_{b b} end{array}right)$

本部分旨在根据上述已知来求 $P(xa),P(xb∣xa),P(xb),P(xa∣xb)Pleft(x_aright), Pleft(x_b mid x_aright), Pleft(x_bright), Pleft(x_a mid x_bright)$ 。
2. 定理
以下定义为推导过程中主要用到的定理，这里只展示定理的内容，不进行证明:

$mathbb{R}^p y=A x+B, y in mathbb{R}^q 结论: y sim Nleft(A mu+B, A Sigma A^Tright)$

一个简单但不严谨的证明:

$A^T+0 =A Sigma A^T end{gathered}$

求边缘概率 $P(xa)Pleft(x_aright)$

$x_a=underbrace{left(begin{array}{ll} I_m & 0_n end{array}right)}_A underbrace{left(begin{array}{c} x_a x_b end{array}right)}_x Eleft[x_aright]=left(begin{array}{ll} I_m & 0_n end{array}right)left(begin{array}{c} mu_a mu_b end{array}right)=mu_a operatorname{Var}left[x_aright]=left(begin{array}{ll} I_m & 0_n end{array}right)left(begin{array}{cc} Sigma_{a a} & Sigma_{a b} Sigma_{b a} & Sigma_{b b} end{array}right)left(begin{array}{c} I_m 0_n end{array}right) =left(begin{array}{ll} Sigma_{a a} & Sigma_{a b} end{array}right)left(begin{array}{c} I_m 0_n end{array}right)=Sigma_{a a} end{gathered}$

所以 $xa∼N(μa,Σaa)x_a sim Nleft(mu_a, Sigma_{a a}right)$ ，同理 $xb∼N(μb,Σbb)x_b sim Nleft(mu_b, Sigma_{b b}right)$ 。
4. 求条件概率 $P(xb∣xa)Pleft(x_b mid x_aright)$

$x_{b cdot a}=x_b-Sigma_{b a} Sigma_{a a}^{-1} x_a mu_{b cdot a}=mu_b-Sigma_{b a} Sigma_{a a}^{-1} mu_a Sigma_{b b cdot a}=Sigma_{b b}-Sigma_{b a} Sigma_{a a}^{-1} Sigma_{a b} end{array}right. & text { ( } Sigma_{b b cdot a} text { 是 } Sigma_{a a} text { 的舒尔补) } & x_{b cdot a}=underbrace{left(begin{array}{ll} Sigma_{b a} Sigma_{a a}^{-1} & I_n end{array}right)}_A underbrace{left(begin{array}{c} x_a x_b end{array}right)}_x & Eleft[x_{b cdot a}right]=left(begin{array}{cc} -Sigma_{b a} Sigma_{a a}^{-1} & I_n end{array}right)left(begin{array}{l} mu_a mu_b end{array}right)=mu_b-Sigma_{b a} Sigma_{a a}^{-1} mu_a=mu_{b cdot a} & operatorname{Var}left[x_{b cdot a}right]=left(begin{array}{cc} -Sigma_{b a} Sigma_{a a}^{-1} & I_n end{array}right)left(begin{array}{cc} Sigma_{a a} & Sigma_{a b} Sigma_{b a} & Sigma_{b b} end{array}right)left(begin{array}{c} -Sigma_{a a}^{-1} Sigma_{b a}^T I_n end{array}right) & =left(begin{array}{cc} -Sigma_{b a} Sigma_{a a}^{-1} Sigma_{a a}+Sigma_{b a} & -Sigma_{b a} Sigma_{a a}^{-1} Sigma_{a b}+Sigma_{b b} end{array}right) & =left(begin{array}{ll} 0 & -Sigma_{b a} Sigma_{a a}^{-1} Sigma_{a b}+Sigma_{b b} end{array}right)left(begin{array}{c} -Sigma_{a a}^{-1} Sigma_{b a}^T I_n end{array}right) & =Sigma_{b b}-Sigma_{b a} Sigma_{a a}^{-1} Sigma_{a b} & =Sigma_{b b cdot a} & end{gathered}$

现在可以得到 $xb⋅a∼N(μb⋅a,Σbb⋅a)x_{b cdot a} sim Nleft(mu_{b cdot a}, Sigma_{b b cdot a}right)$ 。根据 $x_b$ 与 $xb⋅ax_{b cdot a}$ 的关系可以得到 $xb∣xax_b mid x_a$ 的分布:

$xb=xb⋅a⏟x+ΣbaΣaa−1xa⏟B(在求条件概率P(xb∣xa)时xa对于xb来说可以看做已知,因此上式中ΣbaΣaa−1xa看做常量B)E[xb∣xa]=μb⋅a+ΣbaΣaa−1xaVar⁡[xb∣xa]=Var⁡[xb⋅a]=Σbb⋅ax_b=underbrace{x_{b cdot a}}_x+underbrace{Sigma_{b a} Sigma_{a a}^{-1} x_a}_B (在求条件概率 Pleft(x_b mid x_aright) 时 x_a 对于 x_b 来说可以看做已知, 因此上式中 Sigma_{b a} Sigma_{a a}^{-1} x_a 看做常量 B ) begin{gathered} Eleft[x_b mid x_aright]=mu_{b cdot a}+Sigma_{b a} Sigma_{a a}^{-1} x_a operatorname{Var}left[x_b mid x_aright]=operatorname{Var}left[x_{b cdot a}right]=Sigma_{b b cdot a} end{gathered}$

因此可以得到 $xb∣xa∼N(μb⋅a+ΣbaΣaa−1xa,Σbb⋅a)x_b mid x_a sim Nleft(mu_{b cdot a}+Sigma_{b a} Sigma_{a a}^{-1} x_a, Sigma_{b b cdot a}right)$ , 同理可以得到 $xa∣xb∼N(μa⋅b+ΣabΣbb−1xb,Σaa⋅b)x_a mid x_b sim Nleft(mu_{a cdot b}+Sigma_{a b} Sigma_{b b}^{-1} x_b, Sigma_{a a cdot b}right)$ 。

六、求高斯分布的联合概率分布

概述

$Lambda^{-1}right) p(y mid x)=Nleft(y mid A x+b, L^{-1}right) Lambda 和 L 是精度矩阵 (precision matrix), precision matrix =(text { covariance matrix })^T 。 end{gathered}$

本部分旨在根据上述已知来求 $p (y), p (x ∣ y)$ 。

求解 $p (y)$

由上述已知可以确定 $y$ 与 $x$ 的关系为线性高斯模型， $ε$ 是人为定义的噪声，分布也是人为设定。

则 $y$ 与 $x$ 符合下述关系:

$L^{-1}right)$

然后求解 $y$ 的均值和方差:

$Lambda^{-1} A^T+L^{-1} end{gathered}$

则可以得出 $L^{-1}+A Lambda^{-1} A^Tright)$

求解 $p (x ∣ y)$

求解 $p (x ∣ y)$ 需要首先求解 $x$ 与 $y$ 的联合分布，然后根据上一部分的公式直接得到 $p (x ∣ y)$ 。

$mu+bend{array}right],left[begin{array}{cc}Lambda^{-1} & Delta Delta^T & L^{-1}+A Lambda^{-1} A^Tend{array}right]right) 现在需要求解 Delta begin{gathered} Delta=operatorname{Cov}(x, y) =Eleft[(x-E[x])(y-E[y])^Tright] =Eleft[(x-mu)(y-A mu-b)^Tright] =Eleft[(x-mu)(A x+b+varepsilon-A mu-b)^Tright] =Eleft[(x-mu)(A x-A mu+varepsilon)^Tright] =Eleft[(x-mu)(A x-A mu)^T+(x-mu) varepsilon^Tright] =Eleft[(x-mu)(A x-A mu)^Tright]+Eleft[(x-mu) varepsilon^Tright] (因为 x perp varepsilon, 所以 (x-mu) perp varepsilon, 所以 Eleft[(x-mu) varepsilon^Tright]=E[(x-mu)] Eleft[varepsilon^Tright] ) =Eleft[(x-mu)(A x-A mu)^Tright]+E[(x-mu)] Eleft[varepsilon^Tright] =Eleft[(x-mu)(A x-A mu)^Tright]+E[(x-mu)] cdot 0 =Eleft[(x-mu)(A x-A mu)^Tright] =Eleft[(x-mu)(x-mu)^T A^Tright] =Eleft[(x-mu)(x-mu)^Tright] A^T =operatorname{Var}[x] A^T =Lambda^{-1} A^T$

由此可得 z=left(begin{array}{l}x yend{array}right) sim Nleft(left[begin{array}{c}mu A mu+bend{array}right],left[begin{array}{cc}Lambda^{-1} & Lambda^{-1} A^T A Lambda^{-1} & L^{-1}+A Lambda^{-1} A^Tend{array}right]right)
套用上一部分的公式可以得到 x mid y sim Nleft(mu_{x cdot y}+Lambda^{-1} A^Tleft(L^{-1}+A Lambda^{-1} A^Tright)^{-1} y, Sigma_{x x cdot y}right)
end{gathered} $构造 z = (x y) \sim N ([μ A μ + b], [Λ^{- 1} Δ^{T} Δ L^{- 1} + A Λ^{- 1} A^{T}]) 现在需要求解 Δ Δ = Cov (x, y) = E [(x - E [x]) (y - E [y])^{T}] = E [(x - μ) (y - A μ - b)^{T}] = E [(x - μ) (A x + b + ε - A μ - b)^{T}] = E [(x - μ) (A x - A μ + ε)^{T}] = E [(x - μ) (A x - A μ)^{T} + (x - μ) ε^{T}] = E [(x - μ) (A x - A μ)^{T}] + E [(x - μ) ε^{T}] (因为 x ⊥ ε, 所以 (x - μ) ⊥ ε, 所以 E [(x - μ) ε^{T}] = E [(x - μ)] E [ε^{T}]) = E [(x - μ) (A x - A μ)^{T}] + E [(x - μ)] E [ε^{T}] = E [(x - μ) (A x - A μ)^{T}] + E [(x - μ)] \cdot 0 = E [(x - μ) (A x - A μ)^{T}] = E [(x - μ) (x - μ)^{T} A^{T}] = E [(x - μ) (x - μ)^{T}] A^{T} = Var [x] A^{T} = Λ^{- 1} A^{T} 由此可得 z = (x y) \sim N ([μ A μ + b], [Λ^{- 1} A Λ^{- 1} Λ^{- 1} A^{T} L^{- 1} + A Λ^{- 1} A^{T}]) 套用上一部分的公式可以得到 x ∣ y \sim N (μ_{x \cdot y} + Λ^{- 1} A^{T} (L^{- 1} + A Λ^{- 1} A^{T})^{- 1} y, Σ_{xx \cdot y})$

本网站的内容主要来自互联网上的各种资源，仅供参考和信息分享之用，不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益，请联系我们，我们将尽快采取行动，包括删除或更正。

{{userData.name}}已认证

高斯分布及其在MLE中的应用

高斯分布

一、一维情况 MLE

二、多维情况

三、证明高斯分布等高线为”椭圆”

四、高斯分布的局限性

五、求高斯分布的边缘概率与条件概率

六、求高斯分布的联合概率分布

相机标定方法及应用场景详解

解决【 error: Microsoft Visual C++ 14.0 or greater is required】安装问题

GeoSpy.ai

Globe Explorer

即梦Dreamina

Luma Dream Machine

Motionshop

StoryDiffusion

归档

{{userData.name}}已认证

高斯分布

一、一维情况 MLE

二、多维情况

三、证明高斯分布等高线为”椭圆”

四、高斯分布的局限性

五、求高斯分布的边缘概率与条件概率

六、求高斯分布的联合概率分布

相机标定方法及应用场景详解

解决【 error: Microsoft Visual C++ 14.0 or greater is required】安装问题

概率PCA与PPCA推导及理解

深度学习中的回归分析及线性回归

高斯过程与核贝叶斯线性回归

EM算法在机器学习中的应用