释放双眼，带上耳机，听听看~！

本文介绍了Pile:一个825.18 GiB英语文本数据集，用于训练大规模语言模型，并探讨了其对语言模型跨领域知识和泛化能力的影响。该数据集由22个不同的高质量数据集组成，包括已建立的自然语言处理数据集和几个新引入的数据集。文章还评估了在Pile上训练的模型与在其他数据集上训练模型的表现差异，并提供了数据集的详细概览和探索性分析。

导语

会议：Arxiv 2020
链接：arxiv.org/abs/2101.00…

1 简介

随着NLP领域不断扩大语言模型训练规模，对高质量海量文本数据的需求将持续增长。大多数现有的大规模语言模型转向通用抓取(Common Crawl)来获取大部分或全部数据(如T5使用的C4数据集)。虽然在Common Crawl上的训练是有效的，但最近的工作表明，数据集多样性可以带来更好的下游泛化能力。此外，大规模语言模型已被证明可以有效地获取一个新领域的知识，只需从该领域获得相对少量的训练数据。这些结果表明，与仅在少数数据源上训练的模型相比，通过将大量较小的、高质量的、多样化的数据集混合在一起，可以提高模型的一般跨领域知识和下游泛化能力。

为了满足这一需求，本文介绍了Pile:一个825.18 GiB英语文本数据集，用于训练大规模语言模型。Pile由22个不同的高质量数据集组成，包括已经建立的自然语言处理数据集和几个新引入的数据集。除了训练大型语言模型外，The Pile还可以作为语言模型跨领域知识和泛化能力的广泛覆盖基准。

本文揭示了The Pile与纯粹的Common Crawl数据有显著的不同。此外，实验表明，现有的GPT-2和GPT-3模型在Pile的许多组件上表现不佳，并且在Pile上训练的模型显著优于原始和过滤的Common Crawl模型。为了补充性能评估，本文还对Pile中的文本进行探索性分析，以提供数据的详细图像。我们希望我们对The Pile的结构和特性的大量文档将帮助研究人员对潜在的下游应用做出明智的决定。

最后，本文公开了Pile的组成数据集的预处理代码和构建替代版本的代码。为了重现性，作者还尽可能详细地记录了在每个数据集(以及整个Pile)上执行的所有处理。有关每个数据集处理的进一步详细信息，请参见第2节和附录C。

本文的贡献总结如下：

介绍了一个825.18 GiB英语数据集，整合22个不同的源数据进行语言建模。
引入14个新的语言建模数据集。
评估表明，与在CC-100和原始Common Crawl上训练相比，在这个新数据集上训练的gpt-2模型在许多领域都有显著改善。
本文介绍了对这个数据集的调查和记录，希望能更好地告诉研究人员如何使用它，并激励他们对自己的数据进行类似的调查。

2 The Pile数据集

数据集整体概览如下表所示，与之前工作一致，作者增加了一些高质量数据子集的采样权重。

Pile: 一个用于训练大规模语言模型的英语数据集

2.1 Pile-CC

Common Crawl是2008年以来网站抓取的集合，包括原始网页、元数据和文本提取。Pile-CC是基于Common crawl的数据集，在Web Archive文件(包括页面HTML在内的原始HTTP响应)上使用jusText进行提取，这比直接使用WET文件(提取的明文)产生了更高质量的输出。

2.2 PubMed Central

PubMed Central (PMC)是由美国国家生物技术信息中心(NCBI)运营的PubMed生物医学在线资源库的一个子集，提供对近500万份出版物的开放全文访问。

2.3 Books3

Books3是一个图书数据集，来自Shawn Presser提供的Bibliotik私人跟踪器的内容副本。包含这部分数据有利于长距离上下文建模。

2.4 OpenWebText2

OpenWebText2 (OWT2)包括从Reddit提交到2020年的最新内容、来自多种语言的内容、文档元数据、多个数据集版本和开源复制代码。这是一个高质量的通用数据集。

Pile: 一个用于训练大规模语言模型的英语数据集

2.5 ArXiv

ArXiv是一个知名的研究论文预印本服务器。如图10所示，arXiv论文主要集中在数学、计算机科学和物理领域。

2.6 Github

GitHub是一个大型的开源代码库。

2.7 FreeLaw

FreeLaw项目是一个在美国注册的非营利组织，为法律领域的学术研究提供访问和分析工具。完整的数据集提供了多种形式的法律程序，包括摘要、法官的书目信息和其他元数据，但由于有大量的全文条目，本文特别关注法院意见。这些数据完全属于公共领域。

2.8 Stack Exchange

Stack Exchange数据转储包含所有用户在Stack Exchange网络上贡献内容的匿名集，这是一个围绕用户贡献问题和答案的流行网站集合。它是最大的公开问答库之一，涵盖了广泛的主题——从编程到园艺，再到佛教。

2.9 USPTO Backgrounds

USPTO Backgrounds是美国专利商标局授予的专利背景部分的数据集，来自其公布的批量档案。典型的专利背景展示了发明的一般背景，给出了技术领域的概述，并建立了问题空间的框架。

2.10 Wikipedia (English)

Wikipedia是用于语言建模的高质量文本的标准来源。除了是一个高质量的来源，干净的英语文本，它也是有价值的，因为它写在说明文散文，并跨越许多领域。

2.11 PubMed Abstracts

PubMed Abstracts由来自PubMed的3000万份出版物的摘要组成，PubMed是由国家医学图书馆运营的生物医学文章在线存储库。虽然PMC(见第2.2节)提供全文访问，但覆盖范围非常有限，而且偏向于最近的出版物。PubMed还包含了MEDLINE，它扩展了1946年至今的生物医学摘要的覆盖范围。

2.12 Project Gutenberg

Project Gutenberg是一个经典西方文学的数据集。我们使用的特定的Project Gutenberg衍生数据集PG-19，由1919年以前的项目书籍组成，它们代表了与更现代的book3和BookCorpus不同的风格。此外，PG19数据集已经被用于远程上下文建模。

2.13 OpenSubtitles

OpenSubtitles数据集是Tiedemann收集的电影和电视节目字幕的英语数据集。字幕提供了自然对话的重要来源，以及对散文以外的虚构格式的理解，这可能对创造性写作任务很有用，如剧本写作、演讲写作和交互式故事讲述。

2.14 DeepMind Mathematics

DeepMind Mathematics数据集由一系列数学问题组成，这些问题来自代数、算术、微积分、数论和概率等主题，格式化为自然语言提示。大型语言模型的一个主要弱点是在数学任务上的表现，这可能部分是由于训练集中缺乏数学问题。通过显式地包含数学问题的数据集，我们希望提高在Pile上训练的语言模型的数学能力。

2.15 BookCorpus2

BookCorpus2是原版BookCorpus的扩展版本，BookCorpus是一个广泛使用的语言建模语料库，由“尚未出版的作者”撰写的书籍组成。因此，BookCorpus不太可能与由出版书籍组成的Gutenberg计划和Books3有重大重叠。BookCorpus也通常用作训练语言模型的数据集。

2.16 Ubuntu IRC

Ubuntu IRC数据集来源于Freenode IRC聊天服务器上所有Ubuntu相关频道的公开聊天日志。聊天日志数据提供了一个模拟实时人际互动的机会，这种互动具有一种在其他社交媒体模式中不常见的自发性水平。

2.17 EuroParl

EuroParl是一种多语言平行语料库，最初是为机器翻译而引入的，但它也被用于NLP的其他几个领域，其中包括1996年至2012年欧洲议会21种语言的会议记录。

2.18 YouTube Subtitles

YouTube Subtitles数据集是一个平行的文本语料库，收集自YouTube上人工生成的封闭字幕。除了提供多语言数据外，Youtube Subtitles还是教育内容、流行文化和自然对话的来源。

2.19 PhilPapers

PhilPapers数据集包括来自the Center for Digital Philosophy at the University of Western Ontario的开放获取哲学出版物。它涵盖了广泛的抽象概念论述，其文章包含了高质量的学术写作。

2.20 NIH Grant Abstracts: ExPORTER

NIH Grant Abstracts通过出口商服务为获得的应用程序提供了一个涵盖1985年至今的大量数据存储库。它包含了高质量的科学写作的例子。

2.21 Hacker News

Hacker News是由创业孵化器和投资基金Y Combinator运营的链接聚合器。用户提交的文章被定义为“任何满足个人求知欲的东西”，但提交的文章往往集中在计算机科学和创业领域。用户可以对提交的故事进行评论，从而产生讨论和批评提交的故事的评论树。

2.22 Enron Emails

Enron Emails数据集是一个有价值的语料库，通常用于研究电子邮件的使用模式。

3 使用The Pile数据集进行基准评估

3.1 基准评估准则

首先，分别预留0.1%的数据做为验证集和测试集。训练的度量是BPB（Bits-Per-Byte，可以认为是混淆度PPL的类似指标）。

Pile: 一个用于训练大规模语言模型的英语数据集

3.2 GPT-2和GPT-3的测试PPL

如图2所示，作者使用所有可用版本的GPT-2，以及通过OpenAI API可用的所有四个版本的GPT-3。由于与使用OpenAI API相关的成本，对于大多数组成数据集，在各自测试集的十分之一上进行评估。作者将PPL转换为BPB。重要的是，我们通过在每个数据集中独立评估每个文档来计算PPL，而不是像在大型语料库上计算困惑度的常见做法那样连接所有文档。

不出所料，与较小的模型相比，较大的语言模型通常获得较低的困惑度。我们研究了The Stack上的GPT-2和GPT3模型的复杂度评价的scaling law(即模型参数以指数增加时，性能指标以线性增加)。GPT-3模型族的scaling law关系如图2所示。

有趣的是，虽然GPT-2和GPT-3没有在Pile上训练，但似乎仍然有一个明确的比例定律，没有递减的回报。我们假设这是由于这些模型固有的泛化能力。我们把更严格的零镜头比例定律的分析留给以后的工作。

3.3 各个组件上的相对性能

确定GPT-3在哪些组件上表现不佳，可以提供有关哪些Pile组件与GPT-3训练的文本(网页和书籍)分布最不相似的信息。因此，这些组成部分特别适合作为GPT-3训练数据的补充。这些结果对于确定在Pile的未来迭代中强调哪种类型的数据集也很有价值。

由于不同数据集的熵值不同，直接比较GPT-3在不同Pile分量上的复杂度并不能准确地反映相对性能。理想情况会在Pile上从头开始训练一个GPT-3模型，并将每个数据集的损失与原始GPT-3的损失进行比较。由于资源限制，我们转而使用在Pile上从头训练的GPT-2模型(参见第4节)来构造一个代理度量。为了构造我们的代理，我们首先测量每个组件从GPT2-Pile模型到GPT-3的改进。然后，我们通过将OpenWebText2上的更改设置为零来规范化我们的结果。计算如下式所示:

Pile: 一个用于训练大规模语言模型的英语数据集

由于GPT2-Pile是在OWT2和我们正在评估的数据集上进行训练的，因此我们希望 $_{set}$ 中的第二项能够反映两个数据集内在难度的差异。因此， $_{set}$ 集的总和反映了我们评估的GPT-3数据集比OWT2数据集难多少，减去两个任务的相对难度。由于GPT-3是在与OWT2非常相似的数据上训练的，这为我们提供了一个代理，说明如果在Pile上训练GPT-3会做得多好。

结果如图3所示。作为一个完整性检查，我们观察到包含在GPT-3的训练集(Books3, Wikipedia (en)， Pile-CC和Project Gutenberg)中的数据集在我们的指标上得分接近零。

Pile: 一个用于训练大规模语言模型的英语数据集

GPT-3在与研究或学术写作相关的数据集上表现不佳，如PubMed Central、PubMed Abstracts和ArXiv;领域特定的数据集，如FreeLaw, HackerNews和USPTO Background;以及主要包含不同于自然语言的文本的数据集，如GitHub和DM Mathematics。此外，大多数数据集的改进都不如OpenWebText2。因此，我们期望在Pile上训练的GPT-3大小的模型在研究相关任务、软件任务和符号操作任务上比基础模型表现得更好。此外，该实验提供了证据，证明大多数Pile组件与主要基于web的GPT-3训练数据并不冗余。

Pile: 一个用于训练大规模语言模型的英语数据集

我们注意到，这个指标只是相似度的一个代理，它可能会被特定于数据集的缩放效应所混淆。虽然我们的结果在很大程度上符合预期，但也有一些令人费解的结果，比如GPT-3优于GPT-2 Pile的数据集。我们假设GPT-3在这些数据集上学习得非常好，以至于在这些数据集上进行明确的训练并没有明显地有益于模型的性能。我们把对这些影响的更严格的分析留给以后的工作。

4 评估

为了确认Pile在提高语言建模质量方面的有效性，我们基于Brown等人在不同数据集上训练架构相同的13亿个参数模型，并在WikiText和LAMBADA任务上进行评估，作为语言建模能力的基准。我们还报告了关于The Pile的结果，作为更多跨领域泛化的度量。

4.1 方法

为了确保在不同大小的数据集之间进行公平的比较，我们使用与Brown等人(2020)相同的13-gram重叠过滤去污评估集的任何实例，并将样本降至40GB以控制数据集大小。当我们控制数据集大小时，我们强调我们的评估对CC-100 (en)是宽松的，因为其参数规模是实际Pile大小的1/3。

我们比较以下数据集:Pile, CC-100数据集的英语组件，以及仅过滤为英语的原始CC WET文件样本。

4.2 结果

在传统的语言建模基准上，Pile在WikiText上有了显著的改进，而在LAMBADA中则显示出可以忽略不计的变化。然而，在Pile上训练的模型在桩的所有组成部分上都比Raw CC和CC-100显著提高，如表4所示。这表明在Pile上训练的模型具有更强的跨域泛化能力，而不会影响传统基准测试的性能。

Pile: 一个用于训练大规模语言模型的英语数据集

每组优于CC-100的改进幅度如图4所示。不出所料，在Pile-CC上几乎没有改进。然而，在Pile上训练的模型在学术数据集(如ArXiv、Pubmed Central、FreeLaw和PhilPapers)上的表现明显优于其他任何一个模型。它还显著提高了编程相关的数据集，如Github和StackExchange，在EuroParl上，由于在其他数据集中缺乏多语言文本，以及在DM Mathematics上，表明数学能力的显著提高。

Pile: 一个用于训练大规模语言模型的英语数据集

令人惊讶的是，raw Common Crawl在Pile BPB上的表现比CC-100好，尽管在LAMBADA和WikiText上损失了很大一部分。我们假设这是由于CC-100中使用的基于困惑度的过滤，其中语言模型在维基百科上训练，所有困惑度过高或过低的数据都会被丢弃。这有效地丢弃了任何与维基百科过于相似或过于不同的数据，这严重限制了收集数据的多样性。这一结果表明，未来使用Common Crawl的工作应该谨慎地进行过滤，以保持其多样性。

5 结构统计

5.1 长度分析

每个数据集都包含大量的文档。我们分析文档长度的分布，以及使用GPT-2标记器的每个标记的字节数，以便将我们的消融放在上下文中。虽然Pile中的大多数文档都很短，但是有一长尾的非常长的文档(图5)。

Pile: 一个用于训练大规模语言模型的英语数据集

由于GPT-2 BPE标记器是在WebText上训练的，每个标记的平均字节数也是一个非常粗略的指标，表明每个Pile组件在语法上与WebText有多么不同。例如，NIH export、OpenWebText2和Books3等数据集主要由普通文本组成，分布与WebText类似，这反映在每个令牌的字节数更多。另一方面，许多每个令牌字节最少的集合是那些由大部分非文本内容(Github, ArXiv, Stack Exchange和DM Mathematics)或英语以外的语言(EuroParl)组成的集合。

5.2 语言和方言

虽然世界上只有13%的人口说英语，但绝大多数NLP研究都是关于英语的。对于Pile，主要关注英语，而在收集我们自己的数据时也没有明确过滤掉其他语言。

使用fasttext，我们确定Pile是97.4%的英语。我们注意到，由于语言识别的问题，特别是稀有语言，这种方法仅对英语内容提供了粗略的估计，对于低资源语言无法得出可靠的结论。

6 Investigating and Documenting the Datasets

随着机器学习研究规模的增长，人们对训练模型的数据集进行了审查。虽然人工智能伦理和偏见研究中已经提出了这个问题，它并不是语言建模社区关注的焦点。尽管探索和记录数据集问题的工作越来越多，没有一个旨在训练大规模语言模型的数据集被其创建者认真记录。因此，我们的分析服务于两个目标:

解决对Pile的伦理担忧，并
促进和规范参与人工智能伦理文献的实践。

自然语言处理技术具有广泛的适用性，可以在非常不同的上下文中使用。因此，什么是适合训练的数据，什么不是适合训练的数据，会随着应用程序上下文的不同而有很大差异。在我们看来，最好的方法是记录而不是消除数据集中潜在的相关方面，特别是因为Pile的目的是训练通用语言模型。因此，我们的文档的主要目标是使NLP研究人员能够做出明智的决定。

本节中，作者主要讨论了以下几个内容：

数据集记录流程
主题分布
贬义内容
偏见与情感共现
- 性别
- 地区
- 种族
- 作者同意和公共数据

7 影响

Pile代表了将模型和数据集扩展到更大的规模和功能的道路上的另一块垫脚石。对于日益强大的人工智能系统的出现将如何影响更广泛的世界，也有许多严重的担忧。为此，作者从以下几个角度进行了考虑：

内容的合法性
对AI发展的影响
LM的负面输出

8 相关工作

略

参考

语言模型评价指标 bpc(bits-per-character)和困惑度ppl(perplexity)

本网站的内容主要来自互联网上的各种资源，仅供参考和信息分享之用，不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益，请联系我们，我们将尽快采取行动，包括删除或更正。

{{userData.name}}已认证

导语

1 简介

2 The Pile数据集

2.1 Pile-CC

2.2 PubMed Central

2.3 Books3

2.4 OpenWebText2

2.5 ArXiv

2.6 Github

2.7 FreeLaw

2.8 Stack Exchange

2.9 USPTO Backgrounds

2.10 Wikipedia (English)

2.11 PubMed Abstracts

2.12 Project Gutenberg

2.13 OpenSubtitles

2.14 DeepMind Mathematics

2.15 BookCorpus2

2.16 Ubuntu IRC

2.17 EuroParl

2.18 YouTube Subtitles

2.19 PhilPapers

2.20 NIH Grant Abstracts: ExPORTER

2.21 Hacker News

2.22 Enron Emails

3 使用The Pile数据集进行基准评估

3.1 基准评估准则

3.2 GPT-2和GPT-3的测试PPL

3.3 各个组件上的相对性能

4 评估

4.1 方法

4.2 结果

5 结构统计

5.1 长度分析

5.2 语言和方言

6 Investigating and Documenting the Datasets

7 影响

8 相关工作

参考

ChatGPT的13种Prompt：定义如何帮助聊天机器人更好地交流

ChatGPT 在学习和编程中的巧妙运用

自然语言处理的基础模型及重要概念

解读论文：SoT-减少大型语言模型生成延迟的新方法

NLP预训练语言模型总结对比

大语言模型的发展与应用综述