释放双眼，带上耳机，听听看~！

本文介绍了深度学习模型设计中的端到端训练方法，并讨论了embedding函数和神经网络在模型设计中的应用。

模型设计

First, we must define an embedding function that maps discrete text into a continuous space.
Second, we require a rounding method to map vectors in embedding space back to words.

深度学习模型设计与端到端训练

端到端训练

为了将离散文本应用到连续扩散模型上，这里设置了一个embedding函数 $E_{mathrm{MB}}(w_i)$ 将每个词映射到词向量 $Rdmathbb{R}^d$ 。对于长度为 $n$ 的序列 $w$ ：

$E_{mathrm{MB}}(mathbf{w})=left[mathrm E_{mathrm{MB}}left(w_1right), ldots, mathrm E_{mathrm{MB}}left(w_nright)right] in mathbb{R}^{n d}$

作者在实验中发现，使用预训练的word embedding效果不如使用随机高斯噪声初始化之后训练出来的embedding，所以加了这样一个网络，实现离散词序列 $w$ 到 $x_0$ 的马尔科夫转换，参数化为：

$qϕ(x0∣w)=N(EMB(w),σ0I)q_phileft(mathbf{x}_0 mid mathbf{w}right)=mathcal{N} (mathrm E_{mathrm{MB}} (mathbf{w}), sigma_0 I)$

与之对应的反向过程添加了一个可训练的舍入步骤，参数化为：

$pθ(w∣x0)=∏i=1npθ(wi∣xi)p_thetaleft(mathbf{w} mid mathbf{x}_0right)=prod_{i=1}^n p_thetaleft(w_i mid x_iright)$

其中 $pθ(wi∣xi)p_thetaleft(w_i mid x_iright)$ 是一个softmax分布。

因为增加了一个嵌入步骤和一个舍入步骤，添加的这两个网络是和扩散模型进行联合训练的，因此要对训练目标函数改进：

$mathcal{L}_{mathrm{vlb}}^{mathrm{e2e}}(mathbf{w}) & left.=underset{q_phileft(mathbf{x}_0 mid mathbf{w}right)}{mathbb{E}}left[mathcal{L}_{mathrm{vlb}}left(mathbf{x}_0right)+log q_phileft(mathbf{x}_0 mid mathbf{w}right)-log p_thetaleft(mathbf{w} mid mathbf{x}_0right)right]right],$

mathcal{L}_{text {simple }}^{mathrm{e2e}}(mathbf{w}) & =underset{q_phileft(mathbf{x}_{0: T} mid mathbf{w}right)}{mathbb{E}}left[mathcal{L}_{text {simple }}left(mathbf{x}_0right)+left|mathrm E_{mathrm{MB}} (mathbf{w})-mu_thetaleft(mathbf{x}_1, 1right)right|^2-log p_thetaleft(mathbf{w} mid mathbf{x}_0right)right] .end{aligned}
$L_{vlb}^{e2e} (w) L_{simple}^{e2e} (w) = q_{ϕ} (x_{0} ∣ w) E [L_{vlb} (x_{0}) + lo g q_{ϕ} (x_{0} ∣ w) - lo g p_{θ} (w ∣ x_{0})]], = q_{ϕ} (x_{0 : T} ∣ w) E [L_{simple} (x_{0}) + ∥ E_{MB} (w) - μ_{θ} (x_{1}, 1) ∥^{2} - lo g p_{θ} (w ∣ x_{0})] .$

$Lsimplee2e(w)mathcal{L}_{mathrm{simple}}^{mathrm{e} 2 mathrm{e}}(mathbf{w})$ 是 $Lvlbe2e(w)mathcal{L}_{mathrm{vlb}}^{mathrm{e} 2 mathrm{e}}(mathbf{w})$ 的简化版，是根据DDPM设计的目标函数。

DDPM的目标函数：

$Lvlb(x0)=Eq(x1:T∣x0)[log⁡q(xT∣x0)pθ(xT)+∑t=2Tlog⁡q(xt−1∣x0,xt)pθ(xt−1∣xt)−log⁡pθ(x0∣x1)]mathcal{L}_{mathrm{vlb}}left(mathbf{x}_0right)=underset{qleft(mathbf{x}_{1: T} mid mathbf{x}_0right)}{mathbb{E}}left[log frac{qleft(mathbf{x}_T mid mathbf{x}_0right)}{p_thetaleft(mathbf{x}_Tright)}+sum_{t=2}^T log frac{qleft(mathrm{x}_{t-1} mid mathbf{x}_0, mathbf{x}_tright)}{p_thetaleft(mathbf{x}_{t-1} mid mathbf{x}_tright)}-log p_thetaleft(mathbf{x}_0 mid mathbf{x}_1right)right]$
$(x0)=∑t=1TEq(xt∣x0)∥μθ(xt,t)−μ^(xt,x0)∥2mathcal{L}_{text {simple }}left(mathbf{x}_0right)=sum_{t=1}^T underset{qleft(mathbf{x}_t mid mathbf{x}_0right)}{mathbb{E}}left|mu_thetaleft(mathbf{x}_t, tright)-hat{mu}left(mathbf{x}_t, mathbf{x}_0right)right|^2$

可视化之后可以看到学到的embedding是有意义的。

深度学习模型设计与端到端训练

减少舍入误差

embedding是将离散文本映射到连续的 $x_0$ 上，那与之对应的反向过程就应该是将模型预测出来的 $x_0$ 转换回离散的文本。

舍入步骤是根据 $p_thetaleft(mathbf{w} mid mathbf{x}_0right)=prod_{i=1}^n p_thetaleft(w_i mid x_iright)$ 选择每个位置上可能性最大的词。理想状态下通过这个舍入步骤就可以将模型输出的 $x_0$ 映射回离散文本，因为去噪步骤应该能让 $x_0$ 恰好回到某个单词的embedding上。

然而实际情况是不行的，模型输出是不会精确到某个单词的embedding。

作者认为造成上述问题的原因，是在目标函数中 $Lsimplee2e(x0)mathcal{L}_{mathrm{simple}}^{mathrm{e} 2 mathrm{e}}(mathbf{mathbf x_0})$ 对 $x_0$ 结构的建模不够重视。

$(x0)=∑t=1TExt∥μθ(xt,t)−μ^(xt,x0)∥2mathcal{L}_{text {simple }}(mathbf{x_0}) = sum_{t=1}^T mathbb{E}_{mathbf{x}_t}left|mu_thetaleft(mathrm{x}_t, tright)-hat{mu}left(mathrm{x}_t, mathbf{x}_0right)right|^2$

其中的 $μθ(xt,t)mu_thetaleft(mathrm{x}_t, tright)$ 网络直接去预测时间步 $t$ 去噪的 $pθ(xt−1∣xt)p_thetaleft(mathbf{x}_{t-1} mid mathbf{x}_tright)$ 的均值。 $x_0$ 对单词的约束只会出现在 $t$ 接近于0的项中。因此需要对目标函数进行调整，去强调 $x_0$ 。

作者对 $mathcal{L}_{text {simple }}$ 进行调整，强调模型在目标函数的每一项中都去显式地建模 $x_0$ 。
作者推导出一个类似于 $mathcal{L}_{text {simple }}$ 的使用 $x_0$ 参数化的公式：

$e2e(x0)=∑t=1TExt∥fθ(xt,t)−x0∥2mathcal{L}_{mathbf{x}_0 text {-simple }}^{mathrm{e2e}}left(mathbf{x}_0right)=sum_{t=1}^T mathbb{E}_{mathbf{x}_t}left|f_thetaleft(mathbf{x}_t, tright)-mathbf{x}_0right|^2$

其中网络 $fθ(xt,t)f_thetaleft(mathbf{x}_t, tright)$ 直接去预测 $x_0$ ，这样会让神经网络去预测每一项的 $x_0$ 。
使用修改之后的目标去训练模型，模型很快就会学到让 $x_0$ 能回到以word embedding为中心。

clamping trick

作者将其称为clamping trick，在clamping trick中，模型将 $x_t$ 降噪为 $x_{t-1}$ 的生成过程：

通过 $fθ(xt,t)f_theta (mathbf x_t,t)$ 估计出一个 $x_0$
在这个估计的条件相爱对 $x_{t-1}$ 进行采样
$xt−1=αˉfθ(xt,t)+1−αˉϵmathbf{x}_{t-1}=sqrt{bar{alpha}} f_thetaleft(mathbf{x}_t, tright)+sqrt{1-bar{alpha}} epsilon$
其中 $αˉt=∏s=0t(1−βs)bar{alpha}_t=prod_{s=0}^tleft(1-beta_sright)$ ， $ϵ \sim N (0, I)$

这一步就是用的DDPM中的那个，因为都是高斯核，所以 $x_t$ 可以由 $x_0$ 一步得到。

$boldsymbol{x}_t & =sqrt{alpha_t} x_{t-1}+sqrt{1-alpha_t} epsilon_{t-1}^* & =sqrt{alpha_t}left(sqrt{alpha_{t-1}} x_{t-2}+sqrt{1-alpha_{t-1}} epsilon_{t-2}^*right)+sqrt{1-alpha_t} epsilon_{t-1}^* & =sqrt{alpha_t alpha_{t-1}} x_{t-2}+sqrt{alpha_t-alpha_t alpha_{t-1}} epsilon_{t-2}^*+sqrt{1-alpha_t} epsilon_{t-1}^* & =sqrt{alpha_t alpha_{t-1}} x_{t-2}+sqrt{{sqrt{alpha_t-alpha_t alpha_{t-1}}}^2+sqrt{1-alpha_t^2}} epsilon_{t-2} & =sqrt{alpha_t alpha_{t-1}} x_{t-2}+sqrt{alpha_t-alpha_t alpha_{t-1}+1-alpha_t} epsilon_{t-2} & =sqrt{alpha_t alpha_{t-1}} x_{t-2}+sqrt{1-alpha_t alpha_{t-1}} epsilon_{t-2} & =ldots & =sqrt{prod_{i=1}^t alpha_i} x_0+sqrt{1-prod_{i=1}^t alpha_i} epsilon_0 & =sqrt{bar{alpha}_t} x_0+sqrt{1-bar{alpha}_t} epsilon_0end{aligned}$

clamping trick 会将网络 $fθ(xt,t)f_theta (mathbf x_t,t)$ 的预测结果映射到接近的word embedding 序列上。
现在采样步骤就变为了：

$xt−1=αˉ⋅Clamp⁡(fθ(xt,t))+1−αˉϵmathbf{x}_{t-1}=sqrt{bar{alpha}} cdot operatorname{Clamp}left(f_thetaleft(mathbf{x}_t, tright)right)+sqrt{1-bar{alpha}} epsilon$

clamping trick 迫使扩散模型降噪过程中每一步都去计算一个word embedding，使向量预测更为准确，以此减少舍入误差。

作者在这里提示将开始使用clamping trick的起始位置设置为超参数。具体原因看论文P5。

论文信息

深度学习模型设计与端到端训练

论文地址：[2205.14217] Diffusion-LM Improves Controllable Text Generation (arxiv.org)

代码地址：XiangLi1999/Diffusion-LM: Diffusion-LM (github.com)

本文正在参加「金石计划」

本网站的内容主要来自互联网上的各种资源，仅供参考和信息分享之用，不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益，请联系我们，我们将尽快采取行动，包括删除或更正。

{{userData.name}}已认证

深度学习模型设计与端到端训练

模型设计

端到端训练

减少舍入误差

clamping trick

论文信息

原神介绍：探秘提瓦特的幻想世界

学术机构命名实体归一化系统sCool详解

GeoSpy.ai

Globe Explorer

即梦Dreamina

Luma Dream Machine

Motionshop

StoryDiffusion

归档

{{userData.name}}已认证

模型设计

端到端训练

减少舍入误差

clamping trick

论文信息

原神介绍：探秘提瓦特的幻想世界

学术机构命名实体归一化系统sCool详解

新智元导读：Relate Anything Model（RAM）—连接一切

本地搭建AI模型-ChatGLM-6B: Pytorch安装与MinGw配置

Midjourney 换脸大法：InsightFace 教程

深入浅出OCR技术导论