将对抗性训练和虚拟对抗性训练扩展到文本领域

释放双眼,带上耳机,听听看~!
本文介绍了如何将对抗性训练和虚拟对抗性训练扩展到文本领域,并通过循环神经网络对词嵌入进行扰动,实现了在多个监督和半监督任务中的最先进结果。同时提高了词嵌入的质量和模型的泛化能力。代码可在github.com/tensorflow/…找到。

原创:OpenAi

翻译:suntiger

1.摘要

对抗性训练为监督学习算法提供了一种正则化方法,而虚拟对抗性训练则能将监督学习算法扩展至半监督环境。然而,这两种方法都需要对输入向量的大量条目进行微小的扰动,这对于稀疏高维输入(如独热编码的单词表示)是不适当的。我们通过在循环神经网络中对词嵌入进行扰动,而非直接对原始输入进行扰动,将对抗性训练和虚拟对抗性训练扩展到文本领域。所提出的方法在多个基准半监督和纯监督任务上实现了最先进的结果。我们提供了可视化和分析,表明学到的词嵌入质量得到了提高,同时在训练过程中,模型更不容易过拟合。代码可以在以下链接找到:github.com/tensorflow/…

2.研究介绍

对抗性样本是通过对输入进行微小扰动以显著增加机器学习模型损失的样本。一些模型,包括最先进的卷积神经网络,缺乏正确分类对抗性样本的能力,有时即使对抗性扰动受到限制以至于人类观察者无法察觉。对抗性训练是训练模型以正确分类未经修改的样本和对抗性样本的过程。它不仅提高了对抗性样本的鲁棒性,还提高了原始样本的泛化性能。对抗性训练在使用监督成本的模型训练中需要使用标签,因为标签出现在被设计用于最大化对抗性扰动的成本函数中。虚拟对抗性训练将对抗性训练的思想扩展到半监督领域和无标签样本。这是通过使模型正则化,使得给定一个样本,模型将产生与它在该样本的对抗性扰动上产生的相同输出分布。虚拟对抗性训练在监督和半监督学习任务中实现了良好的泛化性能。

以前的工作主要将对抗性和虚拟对抗性训练应用于图像分类任务。在这项工作中,我们将这些技术扩展到文本分类任务和序列模型。对抗性扰动通常包括对很多实值输入进行微小修改。对于文本分类,输入是离散的,通常表示为一系列高维独热向量。因为高维独热向量集不允许无穷小扰动,我们在连续词嵌入上定义扰动,而不是离散词输入。传统的对抗性和虚拟对抗性训练既可以作为正则化策略,也可以作为防御可以提供恶意输入的对手的手段。由于扰动的嵌入不映射到任何单词,且对手可能无法访问词嵌入层,我们提出的训练策略不再作为防御对手的手段。因此,我们仅将这种方法作为一种通过稳定分类函数来正则化文本分类器的手段。

我们展示了我们的方法与Dai和Le(2015)提出的神经语言模型无监督预训练相结合,在多个半监督文本分类任务中实现了最先进的性能,包括情感分类和主题分类。我们强调,只有通过优化一个额外的超参数ε(限制对抗性扰动大小的范数约束)才实现了这样的最先进性能。这些结果强烈鼓励将我们提出的方法应用于其他文本分类任务。我们认为文本分类是半监督学习的理想环境,因为有大量的未标注语料库供半监督学习算法利用。据我们所知,这是第一个使用对抗性和虚拟对抗性训练来改进文本或RNN模型的工作。

我们还分析了经过训练的模型,以定性地描述对抗性和虚拟对抗性训练的效果。我们发现,与基线方法相比,对抗性和虚拟对抗性训练提高了词嵌入的质量。

3.研究模型

我们将T个单词的序列表示为:将对抗性训练和虚拟对抗性训练扩展到文本领域相应的目标表示为y。为了将离散单词输入转换为连续向量,我们定义词嵌入矩阵:将对抗性训练和虚拟对抗性训练扩展到文本领域其中K是词汇表中的单词数量,每行vk对应于第i个单词的词嵌入。注意,第(K + 1)个词嵌入被用作“序列结束(eos)”标记的嵌入,即veos。作为文本分类模型,我们使用了一个简单的基于LSTM的神经网络模型,如图1a所示。在时间步t,输入是离散单词将对抗性训练和虚拟对抗性训练扩展到文本领域对应的词嵌入是:将对抗性训练和虚拟对抗性训练扩展到文本领域我们还尝试了双向LSTM架构,因为它被当前最先进的方法所使用。为了构建用于文本分类的双向LSTM模型,我们在图1中描述的单向LSTM模型上添加一个额外的LSTM以处理反向序列。然后,模型在序列两端的拼接LSTM输出上预测标签。

将对抗性训练和虚拟对抗性训练扩展到文本领域

(a) 基于LSTM的文本分类模型

将对抗性训练和虚拟对抗性训练扩展到文本领域

(b)扰动嵌入的模型

图1 具有干净嵌入的文本分类模型(a)和具有扰动嵌入的文本分类模型(b)

在对抗性和虚拟对抗性训练中,我们训练分类器对嵌入的扰动具有鲁棒性,如图1b所示。这些扰动将在第3节详细描述。目前,我们只需要了解这些扰动的范数是有界的。模型可以通过学习具有非常大范数的嵌入来轻松地使扰动变得无关紧要。为了防止这种病态解,当我们将对抗性和虚拟对抗性训练应用于上述模型时,我们用归一化的嵌入

将对抗性训练和虚拟对抗性训练扩展到文本领域替换嵌入vk,定义为:

将对抗性训练和虚拟对抗性训练扩展到文本领域

(1)

其中fi是第i个单词的频率,在所有训练示例中计算得出。

4.对抗性和虚拟对抗性训练

对抗性训练是一种新颖的正则化方法,用于提高分类器对小的、近似最坏情况扰动的鲁棒性。让我们用x表示输入,用θ表示分类器的参数。当应用于分类器时,对抗性训练会在损失函数中添加以下项:

将对抗性训练和虚拟对抗性训练扩展到文本领域

其中r是输入的扰动,θˆ是分类器当前参数的常数。使用常数副本θˆ而不是θ表示在对抗性样本构造过程中不应使用反向传播算法来传播梯度。在训练的每一步中,我们确定针对当前模型p(y|x; θˆ)的最坏情况扰动radv(见等式(2)),并通过最小化关于θ的等式(2)来训练模型以对这些扰动具有鲁棒性。然而,我们通常无法精确计算这个值,因为对于许多有趣的模型(如神经网络)来说,关于r的精确最小化是难以处理的。Goodfellow等人(2015)提议通过在x附近线性化log p(y | x; θˆ)来近似这个值。使用线性近似和等式(2)中的L2范数约束,得到的对抗性扰动为:

将对抗性训练和虚拟对抗性训练扩展到文本领域

这种扰动可以很容易地通过神经网络中的反向传播来计算。虚拟对抗性训练是一种与对抗性训练密切相关的正则化方法。虚拟对抗性训练引入的额外成本如下:

将对抗性训练和虚拟对抗性训练扩展到文本领域

(3)

将对抗性训练和虚拟对抗性训练扩展到文本领域

(4)

其中KL[p||q]表示分布p和q之间的KL散度。通过最小化等式(3),可以训练一个平滑的分类器。这可以被认为是使分类器对当前模型p(y|x; θˆ)中最敏感的方向的扰动具有抵抗力。虚拟对抗损失等式(3)仅需要输入x,而不需要实际标签y,而等式(2)中定义的对抗损失需要标签y。这使得可以将虚拟对抗训练应用于半监督学习。尽管我们通常无法分析计算虚拟对抗损失,但Miyato等人(2016)提出了一种使用反向传播有效计算近似等式(3)的方法。

正如第3节所述,在我们的工作中,我们将对抗性扰动应用于词嵌入,而不是直接应用于输入。为了在词嵌入上定义对抗性扰动,让我们用s表示一系列(归一化)词嵌入向量
将对抗性训练和虚拟对抗性训练扩展到文本领域
的连接,用p(y|s; θ)表示给定s的y的模型条件概率,其中θ是模型参数。然后我们定义对s的对抗性扰动radv为:

将对抗性训练和虚拟对抗性训练扩展到文本领域

(5)

为了对等式(5)中定义的对抗性扰动具有鲁棒性,我们通过以下方式定义对抗性损失:

将对抗性训练和虚拟对抗性训练扩展到文本领域

(6)

其中N是标记样本的数量。在我们的实验中,对抗性训练指的是通过随机梯度下降法最小化负对数似然加上Ladv。
在我们的文本分类模型上进行虚拟对抗训练时,每个训练步骤中,我们计算以下近似虚拟对抗扰动:

将对抗性训练和虚拟对抗性训练扩展到文本领域

(7)

其中d是一个TD维的小随机向量。这个近似对应于等式(3)的二阶泰勒展开和幂方法的单次迭代,与之前的工作相同(Miyato等人,2016)。然后虚拟对抗损失定义为:

将对抗性训练和虚拟对抗性训练扩展到文本领域

(8)

其中N’是标记和未标记样本的数量。
请参阅Warde-Farley和Goodfellow(2016)关于对抗训练方法的最新综述。

5.研究实验设置

所有实验都在GPU上使用TensorFlow (Abadi et al., 2016)。为了将我们的方法与其他文本分类方法进行比较,我们在5个不同的文本数据集上进行了测试。我们在表1中总结了每个数据集的信息。

IMDB(Maas et al., 2011)是一个用于情感分类的标准基准电影评论数据集。Elec (Johnson & Zhang, 2015b) 是一个亚马逊电子产品评论数据集。Rotten Tomatoes(Pang & Lee, 2005)包括用于情感分类的电影评论的短片段。Rotten Tomatoes数据集没有单独的测试集,因此我们将所有示例随机分为90%的训练集和10%的测试集。我们用不同的随机种子重复进行了五次划分训练和评估。对于Rotten Tomatoes数据集,我们还使用来自亚马逊评论数据集(McAuley & Leskovec, 2013)的电影评论收集了无标签示例。DBpedia(Lehmann et al., 2015; Zhang et al., 2015)是一个维基百科页面的分类数据集。由于DBpedia数据集没有额外的无标签示例,因此DBpedia的结果仅针对监督学习任务。RCV1(Lewis et al., 2004)包括来自路透社语料库的新闻文章。对于RCV1数据集,我们遵循了之前的研究(Johnson & Zhang, 2015b),并在二级主题上进行了单一主题分类任务。我们使用了与Johnson & Zhang (2015b)相同的训练、测试和无标签集划分。关于预处理,我们将任何标点符号视为空格。我们将Rotten Tomatoes、DBpedia和RCV1数据集上的所有单词转换为小写。我们删除了在所有数据集中仅出现在一个文档中的单词。在RCV1上,我们还删除了Lewis et al. (2004)提供的英语停用词列表中的单词。

将对抗性训练和虚拟对抗性训练扩展到文本领域

表1:数据集概述。请注意,Rotten Tomatoes数据集没有提供无标签的示例,因此我们改用无标签的亚马逊评论数据集。

5.1 循环语言模型预训练

遵循Dai和Le(2015)的做法,我们使用预训练的循环语言模型(Bengio等人,2006;Mikolov等人,2010)在有标签和无标签示例上初始化词嵌入矩阵和LSTM权重。我们使用了一个单向单层LSTM,包含1024个隐藏单元。词嵌入维度D在IMDB上为256,在其他数据集上为512。我们在训练中使用了包含1024个候选样本的采样softmax损失。对于优化,我们使用了Adam优化器(Kingma & Ba,2015),批大小为256,初始学习率为0.001,每个训练步骤中学习率指数衰减因子为0.9999。我们训练了100,000步。我们在除词嵌入之外的所有参数上应用了梯度裁剪,范数设为1.0。为了减少GPU上的运行时间,我们在序列的每个末端使用截断反向传播最多400个单词。对于循环语言模型的正则化,我们在词嵌入层应用了0.5的dropout率(Srivastava等人,2014)。

对于双向LSTM模型,我们在标准顺序和逆序序列上都使用了512个隐藏单元的LSTM,以及与两个LSTM共享的256维词嵌入。其他超参数与单向LSTM相同。我们在IMDB、Elec和RCV上测试了双向LSTM模型,因为这些数据集中有相对较长的句子。

在所有测试的数据集上,使用循环语言模型进行预训练对分类性能非常有效,因此我们在第6节的结果中使用了这种预训练。

5.2 训练分类模型

在预训练之后,我们使用第4节中描述的对抗性和虚拟对抗性训练来训练图1a所示的文本分类模型。在目标y的softmax层和LSTM的最终输出之间,我们添加了一个隐藏层,该层在IMDB、Elec和Rotten Tomatoes上的维度为30,在DBpedia和RCV1上的维度为128。隐藏层上的激活函数是ReLU(Jarrett等人,2009;Nair & Hinton,2010;Glorot等人,2011)。在优化过程中,我们再次使用Adam优化器,初始学习率为0.0005,指数衰减为0.9998。批次大小在IMDB、Elec、RCV1上为64,在DBpedia上为128。对于Rotten Tomatoes数据集,在每个步骤中,我们对负对数似然和对抗性训练的损失计算一个大小为64的批次,对虚拟对抗性训练的损失计算一个大小为512的批次。对于Rotten Tomatoes数据集,我们在未标记数据集中使用长度T小于25的文本。我们在所有数据集上迭代了10,000次训练步骤,除了IMDB和DBpedia,我们分别使用了15,000和20,000次训练步骤。我们再次对除词嵌入之外的所有参数应用了梯度裁剪,范数为1.0。我们还使用截断的反向传播算法处理最多400个单词,同时也从序列的每个端部生成最多400个单词的对抗性和虚拟对抗性扰动。我们发现双向LSTM收敛速度较慢,因此在训练双向LSTM分类模型时进行了15,000次训练步骤。

对于每个数据集,我们将原始训练集划分为训练集和验证集,并使用基于嵌入丢失的基本模型的验证性能粗略优化了所有方法共享的一些超参数(模型结构、批量大小、训练步数)。对于每种方法,我们使用验证集优化了两个标量超参数。这些是嵌入丢失率和对抗性与虚拟对抗性训练的范数约束ε。请注意,对于对抗性和虚拟对抗性训练,在应用嵌入丢失后,我们会生成扰动,我们发现这样的性能最好。我们没有在这些方法中进行提前停止。仅使用预训练和嵌入丢失的方法作为基线(在每个表格中称为Baseline)。

6.研究结果

6.1 在IMDB数据集上的测试性能和模型分析

图2展示了在IMDB测试集上使用基线方法(仅嵌入丢失和预训练)、对抗训练和虚拟对抗训练的学习曲线。从图2a中我们可以看到,对抗训练和虚拟对抗训练比基线方法获得了较低的负对数似然。此外,虚拟对抗训练,可以利用未标记数据,在其他方法开始过拟合的时候,保持这个低负对数似然。关于图2b和2c中的对抗和虚拟对抗损失,我们可以看到与负对数似然相同的趋势;虚拟对抗训练能够使这些值低于其他方法。因为对抗训练仅在训练数据的有标签子集上进行操作,它最终会过拟合抵抗对抗扰动的任务。

将对抗性训练和虚拟对抗性训练扩展到文本领域

Figure 2: IMDB数据集上的学习曲线,(a) 负对数似然,(b) 对抗损失(定义在 Eq.(6) 中)以及 (c) 虚拟对抗损失(定义在 Eq.(8) 中)。所有数值都是在测试集上评估的。对抗和虚拟对抗损失都是在 ǫ = 5.0 下评估的。虽然在对抗训练和虚拟对抗训练之间,ǫ 的最优值是不同的,但是 5.0 的值对于两者都表现得非常好,为这两者提供了一个一致的比较点。

Table 2 显示了在 IMDB 上每种训练方法的测试性能。’Adversarial + Virtual Adversarial’ 表示具有共享范数约束 ǫ 的对抗和虚拟对抗损失的方法。仅使用嵌入 dropout,我们的模型达到了7.39%的错误率。对抗和虚拟对抗训练相对于我们的基线改进了性能,虚拟对抗训练达到了与最先进技术相当的性能,错误率为 5.91%。尽管这个最先进的模型需要训练一个双向 LSTM,而我们的模型只使用了一个单向 LSTM。我们还展示了使用双向 LSTM 的结果。我们的双向 LSTM 模型与虚拟对抗训练的单向 LSTM 具有相同的性能。

有一个常见的误解是,对抗训练相当于在噪声样本上进行训练。实际上,噪声作为正则化器要弱得多,因为在高维输入空间中,平均噪声向量与成本梯度大致正交。对抗扰动是明确选择的,以一致地增加成本。为了证明对抗训练优于添加噪声,我们进行了一些对照实验,用来自具有缩放范数的多元高斯分布的随机扰动替换对抗扰动,在序列中的每个嵌入中。在Table2中,’Random perturbation with labeled examples’ 是一种方法,我们用随机扰动替换 radv,’Random perturbation with labeled and unlabeled examples’ 是一种方法,我们用随机扰动替换 rv-adv。每种对抗训练方法的表现都优于每种随机扰动方法。

为了可视化对抗和虚拟对抗训练对嵌入的影响,我们研究了使用每种方法训练的嵌入。表3显示了使用训练嵌入的“好”和“坏”的10个最近邻居。基线和随机方法都受到语言的语法结构的强烈影响,这是由于语言模型预训练步骤,但并没有受到文本分类任务语义的强烈影响。例如,“坏”出现在基线和随机扰动方法的“好”的最近邻居列表中。 “坏”和“好”都是形容词,可以修饰相同的名词集合,所以语言模型将它们分配类似的嵌入是合理的,但这显然不能传达关于单词实际含义的太多信息。对抗训练确保句子的意义不能通过较小的变化而颠倒,因此这些具有相似语法角色但意义不同的单词变得分离。当使用对抗和虚拟对抗训练时,“坏”不再出现在“好”的10个最近邻居中。“坏”对于对抗训练降到了第19个最近的邻居,对于虚拟对抗训练降到了第21个最近的邻居,余弦距离分别为0.463和0.464。对于基线和随机扰动方法,余弦距离分别为0.361和0.377。在另一个方向上,“坏”的最近邻居包括了基线方法和随机扰动方法的第4个最近邻居“好”。对于两种对抗方法,“好”都降到了“坏”的第36个最近邻居。

我们还研究了“伟大”及其在训练嵌入中的余弦距离的15个最近邻居。我们发现对抗和虚拟对抗训练的余弦距离(0.159-0.331)要比基线和随机扰动方法(0.244-0.399)上的余弦距离小得多。

将对抗性训练和虚拟对抗性训练扩展到文本领域

表2:IMDB情感分类任务的测试性能。*表示使用预训练的CNN和双向LSTM嵌入

将对抗性训练和虚拟对抗性训练扩展到文本领域

表3:使用每种方法训练的词嵌入对“好”和“坏”的10个最近邻。我们使用余弦距离作为度量。’基线’表示用嵌入丢失训练,而’随机’表示用带有标记示例的随机扰动训练。’对抗’和’虚拟对抗’分别表示对抗训练和虚拟对抗训练

经过虚拟对抗训练后,较弱的积极词汇“好”也从第三近邻移动到了第15近邻。

6.2 在Elec、RCV1和Rotten Tomatoes数据集上的测试性能

表4显示了在Elec和RCV1数据集上的测试性能。我们可以看到,我们提出的方法在基线方法上改进了测试性能,并在这两个数据集上实现了最先进的性能,尽管最先进的方法使用了CNN和双向LSTM模型的组合。我们的单向LSTM模型在最先进的方法上有所改进,而我们的双向LSTM方法在RCV1上进一步改进了结果。双向模型在RCV1数据集上表现更好的原因可能是,在RCV1数据集上,与其他数据集相比,有一些非常长的句子,双向模型可以通过反向顺序的句子更好地处理这些长句子的较短依赖关系。

表5显示了在Rotten Tomatoes数据集上的测试性能。对抗性训练能够改善基线方法,同时在对抗性和虚拟对抗性成本下,实现了与当前最先进方法几乎相同的性能。然而,仅使用虚拟对抗性训练的测试性能比基线差。我们推测这是因为Rotten Tomatoes数据集的标记句子非常少,且标记句子非常短。

将对抗性训练和虚拟对抗性训练扩展到文本领域

表 4:在 Elec 和 RCV1 分类任务上的测试性能。* 表示使用 CNN 的预训练嵌入,† 表示使用 CNN 和双向 LSTM 的预训练嵌入

在这种情况下,无标签样本上的虚拟对抗损失压倒了有监督损失,因此模型优先保持对扰动的稳健性,而不是获得正确答案。

将对抗性训练和虚拟对抗性训练扩展到文本领域

表 5:在 Rotten Tomatoes 情感分类任务上的测试性能。* 表示使用来自 word2vec Google News 的预训练嵌入,† 表示使用来自 Amazon 评论的无标签数据

6.3 在DBpedia纯粹监督分类任务上的性能

表6显示了每种方法在DBpedia上的测试性能。”随机扰动”与第 5.1 节中解释的”带有标记示例的随机扰动”方法相同。请注意,正如我们在第5节中解释的那样,DBpedia 只有标注的示例,因此这个任务纯粹是监督学习。我们可以看到,基线方法已经接近当前的最先进性能,而我们提出的方法比基线方法有所改进。

将对抗性训练和虚拟对抗性训练扩展到文本领域

表6 在DBpedia纯粹监督分类任务上的性能表现

7.其它相关方法

Dropout(Srivastava 等人,2014)是一种广泛应用于许多领域(包括文本)的正则化方法。之前有一些工作在训练过程中向输入和隐藏层添加随机噪声,以防止过拟合(例如 (Sietsma & Dow, 1991; Poole 等人,2013))。然而,在我们的实验和先前的工作(Miyato 等人,2016)中,使用对抗和虚拟对抗扰动进行训练的方法优于使用随机扰动的方法。

对于使用神经网络进行半监督学习,一种常见方法,尤其是在图像领域,是训练一个生成模型,其潜在特征可用作分类特征(例如(Hinton等人,2006;Maaløe等人,2016))。这些模型现在在图像领域取得了最先进的性能。然而,这些方法需要具有生成模型的许多额外超参数,并且生成模型提供良好监督学习性能的条件尚不清楚。相比之下,对抗性和虚拟对抗性训练只需要一个超参数,并且具有作为鲁棒优化的直接解释。

对抗性和虚拟对抗性训练类似于一些半监督或者转导SVM方法(Joachims, 1999; Chapelle & Zien, 2005; Collobert et al., 2006; Belkin et al., 2006),因为这两类方法都将决策边界远离训练样本(或者在转导 SVM 的情况下,测试样本)。然而,对抗性训练方法坚持在输入空间上保持边距,而 SVM 则坚持在由核函数定义的特征空间上保持边距。这个属性允许对抗性训练方法在施加边距的空间上实现具有更灵活功能的模型。在我们的实验(表 2、4)和 Miyato 等人(2016)中,对抗性和虚拟对抗性训练的性能优于基于 SVM 的方法。

还有一些半监督方法应用于使用 CNN 和 RNN 的文本分类。这些方法利用“视图嵌入”(Johnson & Zhang, 2015b;2016b),它们使用单词周围的窗口来生成其嵌入。当这些用作分类模型的预训练模型时,发现它们可以提高泛化性能。这些方法和我们的方法是互补的,因为我们展示了我们的方法可以从循环预训练的语言模型中得到改进。

8.研究总结

在我们的实验中,我们发现对抗性和虚拟对抗性训练在文本分类任务的序列模型中具有良好的正则化性能。在所有数据集上,我们提出的方法超过或与最先进的性能相当。我们还发现,对抗性和虚拟对抗性训练不仅提高了分类性能,还提高了词嵌入的质量。这些结果表明,我们提出的方法对其他文本领域任务具有前景,例如机器翻译(Sutskever et al., 2014)、学习单词或段落的分布式表示(Mikolov et al., 2013;Le & Mikolov, 2014)以及问答任务。我们的方法也可以用于其他一般的顺序任务,如视频或语音。

致谢

我们感谢 Tensorflow 的开发者。我们感谢 Google Brain 团队的成员们提供热情的支持和宝贵的评论。这项工作部分得到了NEDO的支持。

9.参考文献

Martın Abadi, Ashish Agarwal, Paul Barham, Eugene Brevdo, Zhifeng Chen, Craig Citro, Greg S Corrado, Andy Davis, Jeffrey Dean, Matthieu Devin, et al. Tensorflow: Large-scale machine learning on heteroge9 Published as a conference paper at ICLR 2017 neous distributed systems. arXiv preprint arXiv:1603.04467, 2016.

Mikhail Belkin, Partha Niyogi, and Vikas Sindhwani. Manifold regularization: A geometric framework for learning from labeled and unlabeled examples. The Journal of Machine Learning Research, 7(Nov):2399– 2434, 2006.

Yoshua Bengio, Holger Schwenk, Jean-Sébastien Senécal, Fréderic Morin, and Jean-Luc Gauvain. Neural probabilistic language models. In Innovations in Machine Learning, pp. 137–186. Springer, 2006.

Olivier Chapelle and Alexander Zien. Semi-supervised classification by low density separation. In AISTATS, 2005.

Ronan Collobert, Fabian Sinz, Jason Weston, and Léon Bottou. Large scale transductive svms. Journal of Machine Learning Research, 7(Aug):1687–1712, 2006.

Andrew M Dai and Quoc V Le. Semi-supervised sequence learning. In NIPS, 2015.

Xavier Glorot, Antoine Bordes, and Yoshua Bengio. Deep sparse rectifier neural networks. In AISTATS, 2011.

Ian J Goodfellow, Jonathon Shlens, and Christian Szegedy. Explaining and harnessing adversarial examples. In ICLR, 2015.

Alex Graves and Jürgen Schmidhuber. Framewise phoneme classification with bidirectional lstm and other neural network architectures. Neural Networks, 18(5):602–610, 2005.

Geoffrey E. Hinton, Simon Osindero, and Yee Whye Teh. A fast learning algorithm for deep belief nets. Neural Computation, 18:1527–1554, 2006.

Kevin Jarrett, Koray Kavukcuoglu, Marc’Aurelio Ranzato, and Yann LeCun. What is the best multi-stage architecture for object recognition? In ICCV, 2009.

Thorsten Joachims. Transductive inference for text classification using support vector machines. In ICML, 1999.

Rie Johnson and Tong Zhang. Effective use of word order for text categorization with convolutional neural networks. NAACL HLT, 2015a.

Rie Johnson and Tong Zhang. Semi-supervised convolutional neural networks for text categorization via region embedding. In NIPS, 2015b.

Rie Johnson and Tong Zhang. Convolutional neural networks for text categorization: Shallow word-level vs. deep character-level. arXiv preprint arXiv:1609.00718, 2016a.

Rie Johnson and Tong Zhang. Supervised and semi-supervised text categorization using LSTM for region embeddings. In ICML, 2016b.

Yoon Kim. Convolutional neural networks for sentence classification. In EMNLP, 2014.

Diederik Kingma and Jimmy Ba. Adam: A method for stochastic optimization. In ICLR, 2015.

Quoc V Le and Tomas Mikolov. Distributed representations of sentences and documents. In ICML, 2014.

Jens Lehmann, Robert Isele, Max Jakob, Anja Jentzsch, Dimitris Kontokostas, Pablo N Mendes, Sebastian Hellmann, Mohamed Morsey, Patrick van Kleef, Sören Auer, et al. Dbpedia–a large-scale, multilingual knowledge base extracted from wikipedia. Semantic Web, 6(2):167–195, 2015.

David D Lewis, Yiming Yang, Tony G Rose, and Fan Li. Rcv1: A new benchmark collection for text categorization research. The Journal of Machine Learning Research, 5:361–397, 2004.

Lars Maaløe, Casper Kaae Sønderby, Søren Kaae Sønderby, and Ole Winther. Auxiliary deep generative models. In ICML, 2016.

Andrew L Maas, Raymond E Daly, Peter T Pham, Dan Huang, Andrew Y Ng, and Christopher Potts. Learning word vectors for sentiment analysis. In ACL: Human Language Technologies-Volume 1, 2011.

Julian McAuley and Jure Leskovec. Hidden factors and hidden topics: understanding rating dimensions with review text. In ACM conference on Recommender systems, 2013.

Tomas Mikolov, Martin Karafiát, Lukas Burget, Jan Cernocky, and Sanjeev Khudanpur. Recurrent neural ` network based language model. In INTERSPEECH, 2010.

Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg S Corrado, and Jeff Dean. Distributed representations of words and phrases and their compositionality. In NIPS, 2013.

Takeru Miyato, Shin-ichi Maeda, Masanori Koyama, Ken Nakae, and Shin Ishii. Distributional smoothing with virtual adversarial training. In ICLR, 2016.

Vinod Nair and Geoffrey E Hinton. Rectified linear units improve restricted boltzmann machines. In ICML, 2010.

Bo Pang and Lillian Lee. Seeing stars: Exploiting class relationships for sentiment categorization with respect to rating scales. In ACL, 2005.

Ben Poole, Jascha Sohl-Dickstein, and Surya Ganguli. Analyzing noise in autoencoders and deep networks. In Deep Leanring Workshop on NIPS, 2013.

J. Sietsma and R. Dow. Creating artificial neural networks that generalize. Neural Networks, 4(1), 1991.

Nitish Srivastava, Geoffrey Hinton, Alex Krizhevsky, Ilya Sutskever, and Ruslan Salakhutdinov. Dropout: A simple way to prevent neural networks from overfitting. The Journal of Machine Learning Research, 15(1), 2014.

Ilya Sutskever, Oriol Vinyals, and Quoc V Le. Sequence to sequence learning with neural networks. In NIPS, 2014.

Christian Szegedy, Wojciech Zaremba, Ilya Sutskever, Joan Bruna, Dumitru Erhan, Ian Goodfellow, and Rob Fergus. Intriguing properties of neural networks. In ICLR, 2014.

Sida Wang and Christopher D Manning. Baselines and bigrams: Simple, good sentiment and topic classification. In ACL: Short Papers, 2012.

David Warde-Farley and Ian Goodfellow. Adversarial perturbations of deep neural networks. In Tamir Hazan, George Papandreou, and Daniel Tarlow (eds.), Perturbations, Optimization, and Statistics, chapter 11. 2016. Book in preparation for MIT Press.

Xiang Zhang, Junbo Zhao, and Yann LeCun. Character-level convolutional networks for text classification. In NIPS, 2015.

Han Zhao, Zhengdong Lu, and Pascal Poupart. Self-adaptive hierarchical sentence model. In IJCAI, 2015.

本网站的内容主要来自互联网上的各种资源,仅供参考和信息分享之用,不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益,请联系我们,我们将尽快采取行动,包括删除或更正。
AI教程

AutoML Tables: 实现模型优化和性能提升的利器

2023-12-13 17:12:14

AI教程

使用CountVectorizer预测IMDB电影评论数据

2023-12-13 17:19:14

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索