解读《Representation Degeneration Problem in Training Natural Language Generation Models》

释放双眼，带上耳机，听听看~！

本文解读了《Representation Degeneration Problem in Training Natural Language Generation Models》，包括对Bert词向量的观测统计和理论解释，重点讨论了低频词在模型训练中的影响。

本文正在参加Representation Degeneration Problem in Training Natural Language Generation Models》给出了一定的理论解释，几乎所有提及到 Bert 词向量空间分布存在问题的论文，都只是在引用该篇的基础上，直接将词向量压缩到二维平面上进行观测统计（肉眼看的说服力明显不够😂）

图中（b）（c）可以看出原生 Word2Vec 和分类任务的词向量经 SVD 投影，分布在原点周围，而原生 Transformer 则分布在圆锥形区域，且任意两个词向量都正相关，会降低模型性能，这种现象被称为表征退化问题。

①造成这种现象的直观解释是：在模型训练过程中，真词的embedding会被推向隐藏状态的方向，而其他词会被推向其负方向，结果是词汇表中大多数单词的嵌入将被推向与大多数隐藏状态负相关的相似方向，因此在嵌入空间的局部区域中聚集在一起。
- ②理论解释则是分析未出现词的嵌入，发现表征退化和隐藏状态的结构有关：当隐藏状态的凸包不包含原点时，退化出现，并且当使用层归一化进行训练时，很可能发生这种情况。并发现低频词很可能在优化过程中被训练为彼此接近，因此位于局部区域。

论文将对理论解释部分给出证明，下面从我的理解，来解读一下😂，最后再简单说一下另外两篇对 Bert 词向量观测统计的论文。

3. 理论解释

在介绍之前，先熟悉几个关于凸优化问题的概念（不知道其实也问题不大😂）：

凸集：
集合C中任意两点的线段仍在C中，即对任意 $x_1$ ， $x2∈C，0⩽θ⩽1x_2in C，0leqslant thetaleqslant 1$ 都有 $x_1+(1-theta)x_2in C。$
凸包：
点集Q的凸包是指一个最小凸多边形，满足Q中的点或者在多边形边上或者在其内。（最小的凸集）
锥：

解读《Representation Degeneration Problem in Training Natural Language Generation Models》

凸锥：
如果一个集合既是锥，又是凸集，则该集合是凸锥。

解读《Representation Degeneration Problem in Training Natural Language Generation Models》

1）未出现词

因为不容易直接分析高、低频词，作者另辟蹊径，选择和低频词比较相似的未出现词来分析目标函数。

解读《Representation Degeneration Problem in Training Natural Language Generation Models》

解读《Representation Degeneration Problem in Training Natural Language Generation Models》
因为其他参数固定，则上式等价于：

解读《Representation Degeneration Problem in Training Natural Language Generation Models》

文中说定理1 中的 A 显而易见，那就只能大家自行理解这个凸集了。B 则是对上面最小化公式的求解，下面给出证明
证明：

解读《Representation Degeneration Problem in Training Natural Language Generation Models》

证明：

解读《Representation Degeneration Problem in Training Natural Language Generation Models》
以上还是很好理解的，定理1说明未出现词的向量会被优化无穷远，远离原点（模越来越大）。定理2则是说明词向量的分布不包含原点，而是在原点的一侧

2）低频词

低频词的分析则是在未出现词的基础上，因为分析低频词的embedding对损失函数的影响，将损失函数分为了两部分：

解读《Representation Degeneration Problem in Training Natural Language Generation Models》

解读《Representation Degeneration Problem in Training Natural Language Generation Models》
这是最大化对数似然的广义版本。

解读《Representation Degeneration Problem in Training Natural Language Generation Models》

总损失函数为：

解读《Representation Degeneration Problem in Training Natural Language Generation Models》

解读《Representation Degeneration Problem in Training Natural Language Generation Models》
原来定理3 才是理解路上的最大绊脚石！

解读《Representation Degeneration Problem in Training Natural Language Generation Models》

下面简述一下对词向量进行观测统计的论文

论文1《On the Sentence Embeddings from Pre-trained Language Models》

其实这篇论文就是字节的 Bert-flow（不熟悉 Bert-flow 可见《对比学习——文本匹配》）。论文计算了词嵌入与原点的平均l2距离，并根据词频做了排序（词频越高排名越靠前，第0位词频最高），得出高频词靠近原点、低频词远离原点的结论，如下表上半部分：
解读《Representation Degeneration Problem in Training Natural Language Generation Models》
表的下半部分则为词嵌入和它的k个近邻之间的平均l2距离和点积，可以看出低频词相较于高频词，和它们的k近邻距离更远，说明低频词相对高频词分布更稀疏。

论文2《Learning to Remove: Towards Isotropic Pre-trained BERT Embedding》

该论文则是通过随机计算两个词的相似度，发现都远大于0（说明词向量的方向基本都一致，不一致不会都远大于0），以此说明词向量不是均匀分布在向量空间中，而是分布在一个狭窄的圆锥体中。
解读《Representation Degeneration Problem in Training Natural Language Generation Models》

4. 总结

都有理论解释了，结论自然就是 Bert 词向量确实存在表征退化问题，词向量存在各向异性，高频词距离原点更近，低频词训练不充分，远离原点，整体分布呈现圆锥形，导致其不适用于语义相似度任务。不过不知道该理论解释有没有说服你😄😄😄，有不同见解或疑问，欢迎前来交流。
针对此类问题，可以采用一下方法对其进行纠正，如论文[1]中加入cos正则，论文[2]中将锥形分布转化为高斯分布。因为词向量有问题，句向量自然跑不了，所以《对比学习——文本匹配》中的算法其实也都是为了解决这个问题。

附：（定理3证明）
解读《Representation Degeneration Problem in Training Natural Language Generation Models》

本网站的内容主要来自互联网上的各种资源，仅供参考和信息分享之用，不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益，请联系我们，我们将尽快采取行动，包括删除或更正。

{{userData.name}}已认证

解读《Representation Degeneration Problem in Training Natural Language Generation Models》

3. 理论解释

1）未出现词

2）低频词

论文1《On the Sentence Embeddings from Pre-trained Language Models》

论文2《Learning to Remove: Towards Isotropic Pre-trained BERT Embedding》

4. 总结

增量小样本检测模型Sylph: 从小样本中学习新类别

使用tensorflow 2.1搭建Fashion数据集训练模型实践

GeoSpy.ai

Globe Explorer

即梦Dreamina

Luma Dream Machine

Motionshop

StoryDiffusion

归档

{{userData.name}}已认证

3. 理论解释

1）未出现词

2）低频词

论文1《On the Sentence Embeddings from Pre-trained Language Models》

论文2《Learning to Remove: Towards Isotropic Pre-trained BERT Embedding》

4. 总结

增量小样本检测模型Sylph: 从小样本中学习新类别

使用tensorflow 2.1搭建Fashion数据集训练模型实践

固定LM微调Prompt范式及Prefix-Tuning优势

如何在8GB GPU上训练BERT模型？注意事项与性能评估

文本生成的多种方法

Falcon 180B：世界顶级开源大模型官宣，性能直逼GPT-4