大型学术机构命名文本分类数据集LoT-insts介绍

释放双眼,带上耳机,听听看~!
本文介绍了一个大型学术机构命名文本分类数据集LoT-insts,该数据集具有长尾分布特点,涵盖了学术出版物中的非标准机构名称规范化任务,对数据清洗、过滤和划分过程进行了详细介绍。

导语

本文介绍了一个大型学术机构命名文本分类数据集,主要特点在于这是一个巨大的长尾分布的单文本分类数据集。

1 简介

真实世界的数据通常呈现长尾(long-tailed)分布,有一些频繁出现的标签和大量很少出现的标签,例如:

  • 自然语言中单词的频率,
  • 社交媒体用户的连接数,
  • 生态系统中的物种丰富度

大型学术机构命名文本分类数据集LoT-insts介绍

学术机构名称规范化是一种文本分类任务,它将非标准机构名称划分为由其标准形式组成的类别。
学术出版物上的非标准机构名称通常是通过OCR或PDF解析算法提取出来的,可能是不同粒度(系/学院/大学)、缩写(MIT/ MIT)、旧名称的使用或排版错误等(见右表)。
这些机构名称的词汇变化导致冗余、不完整和歧义,这给一堆下游任务带来了严重的问题。例如信息检索或学者画像等。

近年来,人们对长尾数据的研究兴趣日益浓厚,但主要集中在计算机视觉领域。例如ImageNet-LT通过对ImageNet中的标记图像进行重采样,形成了一个视觉分类数据集,极大的推动了相关研究。如通过重采样训练集,重加权损失函数,或者通过迁移学习。
然而,在自然语言处理领域还没有用于长尾分类的公共数据集,这阻碍了自然语言相关技术的发展。

2 LoT-insts数据集

本文从Microsoft Academic Graph (MAG)收集了一个大型长尾文本分类数据集——LoT-insts(Long-Tailed instituition names)。
LoT-insts包含超过25k个类,它们表现出自然的长尾分布。测试集包含Many-shot、Medium-shot和Few-shot,以及Zero-shot四部分。
其收集过程分为三个阶段:

  1. 数据清洗(Data Cleaning):移除掉MAG中的标注噪声;
  2. 数据过滤(Data Filtering):移除掉冗余的样例;
  3. 数据集划分(Partitioning the Dataset):划分训练/验证/测试/开放集。

2.1 数据清洗

大型学术机构命名文本分类数据集LoT-insts介绍

数据清洗主要包括以下四个步骤:

  1. 从PaperAuthorAffiliation .txt文件中提取原始的机构名称和机构id;
  2. 删除重复的原始名称;
  3. 通过使用一些投票方法(中右)检测并删除错误映射和删除模糊映射;
  4. 删除重复的机构来清除机构id。

2.2 数据过滤

大型学术机构命名文本分类数据集LoT-insts介绍

作者发现,原始的数据集中存在着大量的冗余样例,这些样例会导致模型性能虚高,为此,作者设计了一种启发式规则进行冗余过滤。如上图所示,(a)显示了一些与Rowan University相对应的原始机构名称。
在(b)中,对于每个示例,我们检测它是否是同一类示例中另一个示例的子字符串。如果是这样,我们就用一条边来连接这两个例子。
这个过程形成了一个以这些例子为节点的无向图。对于无向图中的每个连接组件,我们随机只保留一个示例(深色),其他所有示例都被丢弃(浅色)。

2.3 数据集划分

通过随机抽取2%的类别收集开放测试集(open test set)。
对于测试集和验证集,作者从每个集的剩余数据中随机抽取2%的示例。
此外,进行额外的步骤确保测试集中的每个类别至少有一个训练集中的示例,并且测试集中覆盖尽可能多的类别。

数据集最终的统计情况和分布如下表(图)所示:

大型学术机构命名文本分类数据集LoT-insts介绍

该数据集与其他同类型(Long-tailed)数据集的对比如下表所示:

大型学术机构命名文本分类数据集LoT-insts介绍

3 任务

本文一共引入了三个任务:

  • Closed-Set Classification (CSC):此任务与规范分类任务大致相同。使用2个标准评价指标,即Accuracy(即Micro-f1)和Macro-f1。
  • Open-Set Classification (OSC):此任务中,模型被要求判断给定的样本是否属于一个未见过的类。评价指标为ROC((receiver operating characteristic)曲线。
  • Open-Set Verification (OSV):此任务中,模型被要求判断提供的两个样本是否属于同一个未见过的类。该任务反映了模型是否能够利用所学知识,从未见的类中区分出来。评估指标采用Accuracy。

4 方法

4.1 Baseline

Baseline方法包括机器学习与检索式方法,具体如下:

  • Naïve Bayes(JACM’61)
  • FastText(EACL’17)
  • sCool(CTS’14)
  • CompanyDepot V1 (KDD’16)
  • BERT(NAACL’19)

4.2 所提出方法

由于机构名称通常比自然句子短,并且包含许多词表外(out-of-vocabulary, OOV)的单词,因此作者将原始BERT模型修改为字符级别。输入嵌入修改为字符嵌入、字符位置嵌入和词位置嵌入3部分。

大型学术机构命名文本分类数据集LoT-insts介绍

在预训练阶段,只使用掩码语言建模(MLM)任务,只是掩码都是在字符级别。在微调阶段,选择序列级分类作为下游任务。在[CLS]令牌输出后添加一个softmax层来预测相应的类。
同时,作者还使用了重采样策略,根据每个类的频率调整采样概率。

大型学术机构命名文本分类数据集LoT-insts介绍

具体到OSV任务,在基于对比学习的微调过程中引入了一个额外的损失项,如果两个特征向量属于同一类,则将它们推近,否则将它们彼此推离。

5 结果

5.1 CSC Task

大型学术机构命名文本分类数据集LoT-insts介绍

几乎所有基线方法在Few-shot测试集上的表现都比在Many-shot测试集上的表现差得多,而基于bert的方法显著优于所有其他各种类型的基线方法,这表明了预训练在这项任务中的有效性。字符级预训练BERT模型在Few-shot上的表现进一步优于原始BERT微调。
Many-shot子集和Few-shot子集之间的性能存在冲突和权衡,为未来的研究留下了空间。

5.2 OSC Task

提出的模型在整个测试集和Many-shot子集中具有与原始BERT方法非常相似的性能,在Medium-shot和Few-shot子集中获得了明显更好的性能。

大型学术机构命名文本分类数据集LoT-insts介绍

5.3 OSV Task

使用对比损失进行训练可以提高模型区分不同样本的能力,即使它们来自未见的类别。

大型学术机构命名文本分类数据集LoT-insts介绍

5.4 消融实验

Character-level v.s. Word-level Pretraining

训练另一个BERT模型,在微调期间进行重采样(BERT+RS)。可以看出,通过重新采样,在Few-shot上的性能有所提高,说明了重新采样策略的有效性。但是,BERT+RS模型仍然不如我们的模型,说明了使用字符级模型的必要性。

Pretraining from Scratch v.s. Further Pretraining

在BERT中添加了另一个训练阶段,即在微调之前在我们的数据集上进一步预训练原始BERT模型(BERT+RS+FP)。可以看出BERT+RS+FP比BERT+RS有很大的改进,这表明LoT-insts数据集确实与BERT预训练使用的一般语料库有很大的不同。与所提出模型相比,该模型在数据集上的字符级别从头开始预训练,在Many-shot中表现出色,而在Medium-shot和Few-shot中仍然落后于显著差距。

6 总结

本文提出了一个大规模的机构名称归一化数据集LoT-insts,该数据集在超过25k个类中呈现长尾分布。作者为这项任务重现了不同类型的公开可用方法,提供了不同方法之间的公平比较。此外,提出了一种新的基于bert的模型,以及该任务的对比损失,它优于以前的方法,为数据集设置了强大的基线。
与专注于长尾现象的其他数据集相比,该数据集的训练数据比现有最大的长尾数据集多一个数量级,并且是自然的长尾数据,而不是手动重新采样。作者认为这为研究这个问题提供了一个重要而不同的场景,并希望该研究能为长尾文本分类的研究铺平道路。

本网站的内容主要来自互联网上的各种资源,仅供参考和信息分享之用,不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益,请联系我们,我们将尽快采取行动,包括删除或更正。
AI教程

大恒图像基于百度飞桨AI算法实现新能源汽车电池隔膜质检

2023-12-13 16:19:14

AI教程

深入了解torch.arange()和torch.range()的用法及支持的数据类型格式

2023-12-13 16:32:14

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索