Diffusion Model中常用的噪声表及应用场景

释放双眼,带上耳机,听听看~!
本文总结了Diffusion Model中常用的噪声表及其应用场景,包括线性调度、余弦调度、Sqrt调度和自适应调度,适用于对数据进行扩散处理的人群。

本文仅适用于已经了解什么是Diffusion Model的人。

我们知道,在Diffusion Model中存在正向扩散过程——破坏数据 逆向扩散过程——生成过程。在正向过程中,我们给定一个数据,随着时间步 tt 逐渐给它添加噪声。而添加的噪声是我们已经预先设定好的噪声表。

今天这个文章浅浅总结一下Diffusion Model中常用的噪声表。

Linear Schedule

线性噪声表是出自Diffusion Model的经典之作《Denoising Diffusion Probabilistic Models》。

Diffusion Model中常用的噪声表及应用场景

这这篇文章里,噪声表是取[10−4,0.02][10^{-4},0.02]进行线性插值形成噪声表。

Cosine Schedule

然后就来到了这篇文章:《Improved Denoising Diffusion Probabilistic Models》

Diffusion Model中常用的噪声表及应用场景

在这篇文章中,作者觉得线性噪声表效果并不好。线性噪声调度对高分辨率图像效果较好,但对于分辨率为64 × 64和32 × 32的图像效果欠佳。并且在这些分辨率下,前向加噪过程的末尾噪声太大,因此对样本质量的贡献不大。

于是作者想要一个想要一个两端平滑中间线性下降噪声表,因此提出Cosine Schedule。

αtα_t构造了一个不同的噪声调度:

αˉt=f(t)f(0),f(t)=cos⁡(t/T+s1+s⋅π2)2βt=1−αˉtαˉt−1begin{aligned}
& bar{alpha}_t=frac{f(t)}{f(0)}, quad f(t)=cos left(frac{t / T+s}{1+s} cdot frac{pi}{2}right)^2
\
& beta_t=1-frac{bar{alpha}_t}{bar{alpha}_{t-1}}
end{aligned}

限制βt≤0.999β_tleq0.999,以防止在扩散过程接近t=Tt = T时出现奇怪现象。

Sqrt Schedule

在《Diffusion-LM Improves Controllable Text Generation》中,作者觉得前两种噪声表对文本数据不具有鲁棒性。作者认为在接近原始数据embedding的地方去噪比较简单,如果添加噪声太小,不足以扰乱数据,因此应该添加更大的噪声。所以提出Sqrt Schedule

Diffusion Model中常用的噪声表及应用场景

αˉt=1−t/T+sbegin{aligned}
bar{alpha}_t = 1-sqrt{t / T+s}
end{aligned}

在Diffusion-LM中设置s=1e−4s =1e^{-4}, T=2000T = 2000, 标准差为0.10.1

Adaptive Schedule

《Seqdiffuseq: Text diffusion with encoder-decoder transformers》这篇论文提出了一种文本扩散方法,并针对预测难度随时间步增加的问题设计了自适应调度(adaptive schedule)。该方法通过学习噪声规模和损失之间的关系,实现在训练过程中根据损失来动态地更新噪声规模,以应对预测难度的增加。

在该论文中,作者认为随着时间步的增加,文本扩散任务的预测难度会线性增长。为了有效地应对这一挑战,作者引入了自适应调度的概念。具体而言,他们首先构建了一个噪声调度(noise schedule),该调度规定了在不同时间步应用不同程度的噪声以模拟预测难度的增加。然后,他们通过在训练数据上的实验,学习了噪声规模和损失之间的关系。

Mutual Information Schedule

在《Structured denoising diffusion models in discrete state spaces》这篇论文中,研究人员提出了一种离散状态空间下的结构化去噪扩散模型,并为离散扩散过程设计了互信息调度(mutual information schedule)。该调度通过对原始数据和隐变量之间的互信息进行线性插值,来引导模型的学习过程。在涵盖吸收状态的离散扩散模型中,该调度策略的具体形式如下:

βt=(T−t+1)−1beta_t=(T-t+1)^{-1}

这个调度策略的核心思想是,在训练过程中逐渐引入随机性,以更好地平衡模型的学习过程。随着时间步的增加,βtbeta_t 逐渐减小,使得模型在初始阶段更加关注高互信息的部分,然后逐步引入更多噪声和随机性,以便更好地捕捉数据的分布特征。

Spindle Schedule

在《Diffusionbert: Improving generative masked language models with diffusion models》这篇论文中,提出了一种名为 “spindle schedule” 的策略,用于非自回归生成中。这个策略基于 “easy-first policy”,认为在生成序列时,常见的单词应该较早地被生成出来,以便作为后续生成较少见单词时的上下文信息。具体而言,该策略通过调整单词被打乱的概率,使得包含更多信息量的单词更有可能被打乱。

在 spindle schedule 中,相对较少见的单词会在生成序列的前向过程的开始阶段被替换为 [MASK],然后在去噪(恢复)阶段的结尾被逐渐恢复回其原始单词。这种策略的引入可以增强模型对上下文信息的捕捉,尤其是在生成相对不常见的单词时,从而提高非自回归生成模型的性能。

综上所述,spindle schedule 是一种用于非自回归生成的策略,通过调整单词的打乱概率,使得常见单词更早地被生成出来,从而增强了模型在不同单词的生成过程中的表现。

本网站的内容主要来自互联网上的各种资源,仅供参考和信息分享之用,不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益,请联系我们,我们将尽快采取行动,包括删除或更正。
AI教程

Transformer网络:自注意力和多头注意力

2023-11-22 13:39:14

AI教程

文心千帆大模型平台使用指南

2023-11-22 13:57:55

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索