ACL 大会论文解读：Text-to-Table 任务及其应用场景

释放双眼，带上耳机，听听看~！

本文深入解读了 ACL 大会上字节跳动提出的 Text-to-Table 任务，探讨了其应用场景及对信息抽取任务的意义。该任务将自然语言文本转化为结构化表格，可以用于文本摘要和数据挖掘任务，是自然语言处理领域的新研究方向。

ACL（国际计算语言学协会），于1962年成立，是自然语言处理与计算语言学领域最高级别的学术会议。会议包含信息抽取、信息检索、语言生成、语言资源、机器翻译以及多模态等主题，每年都会吸引大量业界学者投稿和参会。

今年的 ACL 大会于5月22日至5月27日举办。在此次会议中，字节跳动有多篇论文入选，本文精选了其中的7篇进行简要介绍（排名不分先后），论文主题涵盖了：信息抽取任务、基于演绎推理的数学解题、基于单调切分的端到端同传翻译、篇章级神经机器翻译、可解释类比推理数据集、基于隐变量建模的并行文本生成模型、通过跨模态预训练缓解模态鸿沟的语音翻译方法等。

Text-to-Table：一种新的信息抽取任务

ACL 大会论文解读：Text-to-Table 任务及其应用场景

信息抽取任务旨在提取自然语言文本数据中的信息，将其用结构化的形式展示。命名实体识别、关系抽取、事件提取都是经典的信息抽取任务，这些任务通常都需要利用已经定义好的结构化表示 (schema)，例如命名实体识别需要从文本中抽取（实体名，实体种类）的二元组集合，而关系抽取需要抽取（主实体，客实体，关系）的三元组列表。

字节跳动提出了一种新颖的信息抽取任务设定，称为 Text-to-Table。该任务的目标是使用一个或多个表格来展示一段自然语言文本的主要内容。例如，对于一场篮球比赛的战报，可以使用两个表格来概括这份战报，第一个表格给出两支球队的信息和得分情况，而第二个表格列出了双方球员在这场比赛中的数据。文中提出一种将表格进行序列化表示的方法，并使用序列到序列模型来生成表格。这样做的优点在于表格的结构化信息 (schema) 完全可以从数据中学习，不需要人工显式指定。此外，该方法既可以用于句级别的信息抽取，也可以用于篇章级别的信息抽取。虽然两者的边界并不是很明晰，但通常来说，篇章级别的长文本输入可以生成更大、内容更复杂的表格。

ACL 大会论文解读：Text-to-Table 任务及其应用场景

Text-to-Table 任务有多种使用场景。首先，它自身就是一种文本摘要 (Text summarization) 的方式，可以将大段文本中的关键信息用表格概括。比起文本，表格信息具有良好的结构，更加容易理解，可以提高阅读者获取信息的效率。除此之外，该任务对下游的数据挖掘任务也有帮助。例如球队和球员的数据表可以用来评估球队和运动员的表现，而利用 wikipedia 文本生成的信息表格 (infobox) 可以用于建立知识图谱。

这篇工作受到了 Data-to-text 任务的启发，Data-to-text 任务的目的是为结构化表格生成文本描述，Text-to-Table 任务可以认为是它的反向任务。得益于此，Text-to-Table 任务中可以用 Data-to-text 的数据来训练和评估模型。

本文的主要贡献总结如下：

提出了一种全新的信息抽取任务 Text-to-Table ，并利用已有的 Data-to-Text 数据集来组建该任务的数据集。
将 Text-to-Table 形式化为序列到序列生成的问题，并在基础的序列到序列模型上提出表格解码约束和表格关系向量两项改进提升表格生成的效果。
在不同领域的四个数据集 (Rotowire、E2E、WikiTableText、WikiBio) 上进行深入的实验来验证方法的有效性，并指出了 Text-to-Table 任务中存在的多个挑战。

一种基于演绎推理的数学解题方法

ACL 大会论文解读：Text-to-Table 任务及其应用场景

目前强大的语言模型普遍在很多下游NLP任务中能轻易地达到比较好的结果，但在推理效果上没有达到我们的预期。在大规模语言模型中引入多步的推理 prompt ，可以提升数学解题的效果。现有的序列生成以及树生成模型在数学解题上可解释性不高，当模型出错时很难对预测结果进行一个有根据的分析。这两点启发了我们在训练当中加入多步推理以及在推理过程中能够与问题有密切的关联，从而希望可以理解模型的预测行为。

字节跳动人工智能实验室与新加坡科技与设计大学提出一个基于演绎推理的方法，希望实现类似 System 2 的推理能力。和传统的树生成方法不同的是，我们主要从数学表达式出发，一步步的预测表达式，而不是预测某一个数字或者数学运算符，从而使模型有更准确的预测效果。同时，在预测的过程中，我们可以通过加入先验知识来限制我们的搜索空间，使模型能够融入我们的先验知识。

基于单调切分的端到端同传–MOSST

ACL 大会论文解读：Text-to-Table 任务及其应用场景

流式语音翻译技术（Simultaneous Speech Translation，简称SiST）需要同时权衡翻译质量和翻译延迟。一方面，为了更好的用户体验，SiST 追求较低延迟，这就需要尽可能早地开始翻译；另一方面，为了保证翻译的准确性，需要输入更多的上下文，这要求等待尽可能多的音频流。综上，SiST 的目标是在满足一定延迟约束的情况下取得最好的翻译准确性。传统的 SiST 是由流式的语音识别和流式的机器翻译等多个模块串联而成的级联系统实现的。由于级联系统存在错误累积和局部优化等问题，端到端 SiST 逐渐受到了研究者的关注。

现有经典的端到端 SiST 工作是基于固定策略的wait-k训练：首先，SiST 按固定步长接受音频流，直到*K *步；然后，SiST 迭代地进行音频流的输入和翻译结果的输出，直到音频流结束或者翻译结束。

这篇文章给大家介绍 ACL 2022 上的一篇研究流式语音翻译的工作，主要是引入了一种单调切分模块（Monotonic Segmentation Module）用于语音翻译（Speech Translation），简称MoSST，作者来自字节跳动人工智能实验室和加州大学圣塔芭芭拉分校。

重新审视篇章级神经机器翻译

ACL 大会论文解读：Text-to-Table 任务及其应用场景

近年来取得巨大进步的机器翻译在众多场景下都取得了媲美人类的成绩，许多人惊呼，机器翻译能成功「骗」过人类了。但如果深入研究，我们就能发现机器翻译在一些特殊的场景下，仍然有些肉眼可见的瑕疵。篇章级翻译就是一个典型的场景。

人类在翻译的过程中会保持上下文一致，比如翻译英文名「Monroe」，不会一会儿翻译成「梦露」，一会儿翻译成「门罗」，但许多商用机器翻译仍然会犯这种「低级错误」。

ACL 大会论文解读：Text-to-Table 任务及其应用场景

如何在篇章翻译的过程中保持上下文的一致性，让机器表现得更像人类，是机器翻译的一个重要课题。这篇论文重新审视了篇章机器翻译领域的过往工作，针对当下流行的研究趋势提出了反思，并提出回归到经典简洁的 Transformer 模型解决篇章翻译问题，通过多分解度的训练方案取得了SOTA的效果。最后，这篇文章也贡献了一份新的数据集，旨在推动整个领域的发展。

E-KAR: 可解释类比推理数据集

ACL 大会论文解读：Text-to-Table 任务及其应用场景

类比在人类认知中占有重要地位，通过类比可以发现新的见解和证明日常的推理，比如老师在课堂上用煮熟的鸡蛋类比地球的构造，使得学生很快理解了不能亲自体验的知识。由于在多个领域有着独特价值，类比成为了人工智能研究领域的重要问题。

在NLP中，我们比较熟悉的是以多选题形式出现的词类比识别问题，然而现有的词类比数据集关注于简单的二元类比关系，并且缺乏用于届时类比推理过程的标注信息。因此，解答这一类问题并不能揭示神经网络模型类比推理的内在过程，这对探究类比的内部性质来说是不利的。我们亟需一类更困难的、可解释的类比推理数据集。

本文介绍了复旦大学、字节跳动人工智能实验室等机构的研究者的最新工作 E-KAR，相关工作已经被 ACL 2022 Findings 接收。E-KAR 是首个可解释的知识密集型类比推理数据集，由1,655个（中文）和1,251个（英文）来自中国公务员考试的问题组成，并提出了类比推理问题的两个基准任务，用于教会和验证模型学习类比的能力。

一种基于隐变量建模的并行文本生成模型

ACL 大会论文解读：Text-to-Table 任务及其应用场景

并行文本生成具备极高的文本生成效率，是一个极有前景的文本生成范式。然而，数据中普遍存在的多样性给并行文本生成的建模带来了巨大的挑战。值得注意的是，虽然现有研究通过各种手段获取了更高的生成质量，但这些方法仍依赖于知识蒸馏的训练策略，忽略了教师模型的训练代价及其性能对并行生成模型的限制。因此，如何摆脱知识蒸馏训练并行文本生成模型是一个值得探究的问题。

字节跳动联合南京大学、加州大学圣塔芭芭拉分校等机构的研究者，提出了一种基于隐变量的并行生成模型 (latent-GLAT)。为了能够直接学习多样化的数据，latent-GLAT 模型引入了离散隐变量，并约束其建模出隐式的词类别信息，进而帮助模型摆脱了对知识蒸馏技术的依赖。其核心思想是：首先，引入离散隐变量将原始的建模目标分解成隐变量的建模以及基于隐变量的词建模任务，通过这一分解有效地降低了建模的难度；其次，有限的离散隐变量仅包含有限的多样性，我们可以通过并行生成模型对其直接进行建模；最后，离散隐变量所建模出的词类别信息对词的预测往往也很有帮助。最终，再结合一种渐进式地学习策略，latent-GLAT 在机器翻译、复述生成和对话生成任务上展现出了有效性，摆脱了对于知识蒸馏技术的依赖。

语音翻译新方法 STEMM —— 跨模态预训练缓解模态鸿沟

ACL 大会论文解读：Text-to-Table 任务及其应用场景

近年来，神经机器翻译技术取得的巨大进步，离不开大规模标注的平行语料数据。然而，语音翻译需要的“语音-转写-翻译”数据则相对较为稀少。例如，目前常用的语音翻译数据集大概只有几百小时。相比之下，文本翻译数据集通常具备百万甚至千万级的规模。因此，已有工作想方设法通过诸如预训练、多任务学习、知识蒸馏等技术，利用大规模的文本翻译数据来帮助提高语音翻译模型的性能。

然而，想有效利用文本翻译数据并不容易，因为语音和文本之间存在着表示不一致的问题，本文称之为模态鸿沟（Modality Gap）问题。如下图所示，相同含义的语音表示和文本表示之间可能存在着较大的差异，此时模型难以从文本翻译数据中学习到对语音翻译有用的知识。

ACL 大会论文解读：Text-to-Table 任务及其应用场景

如何缓解语音与文本之间的模态鸿沟，有效利用文本翻译数据提高语音翻译的性能，是一个值得探究的问题。字节跳动与加州大学圣塔芭芭拉分校针对语音翻译中的模态鸿沟问题，提出了一种简单有效的跨模态 Mixup 方法，通过 Mixup 产生同时包含语音表示和文本表示的序列，从而使模型在训练过程中建立模态间的联系。在此基础上，本文引入了一个自我学习框架，使语音翻译任务从 Mixup 中学习知识，进而提升语音翻译的性能。

本网站的内容主要来自互联网上的各种资源，仅供参考和信息分享之用，不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益，请联系我们，我们将尽快采取行动，包括删除或更正。

{{userData.name}}已认证

ACL 大会论文解读：Text-to-Table 任务及其应用场景

Text-to-Table：一种新的信息抽取任务

一种基于演绎推理的数学解题方法

基于单调切分的端到端同传–MOSST

重新审视篇章级神经机器翻译

E-KAR: 可解释类比推理数据集

一种基于隐变量建模的并行文本生成模型

语音翻译新方法 STEMM —— 跨模态预训练缓解模态鸿沟

TCN网络在时序数据处理中的应用及原理解析

GPT-4：特点、能力和预测

GeoSpy.ai

Globe Explorer

即梦Dreamina

Luma Dream Machine

Motionshop

StoryDiffusion

归档

{{userData.name}}已认证

Text-to-Table：一种新的信息抽取任务

一种基于演绎推理的数学解题方法

基于单调切分的端到端同传–MOSST

重新审视篇章级神经机器翻译

E-KAR: 可解释类比推理数据集

一种基于隐变量建模的并行文本生成模型

语音翻译新方法 STEMM —— 跨模态预训练缓解模态鸿沟

TCN网络在时序数据处理中的应用及原理解析

GPT-4：特点、能力和预测

KMeans聚类算法：原理、应用和优缺点

GPT原理与使用技巧

KDD 2023 | 美团技术团队精选论文解读 - 最新研究成果分享

Falcon 180B：世界顶级开源大模型官宣，性能直逼GPT-4