Ptr-Net: 一种新的指针网络体系结构及其应用

释放双眼,带上耳机,听听看~!
了解Ptr-Net指针网络及其在组合优化问题中的应用,探讨序列到序列模型中的注意力机制和新的体系结构。

导语

最近很多Text-to-Sparql的方法会与Pointer-network作比较,故进行回顾整理。

1 简介

近年来,递归神经网络(rnn)一直用于从示例序列中学习函数。然而,它们的架构限制了它们的设置,其中输入和输出以固定帧速率可用。最近引入的序列到序列范式通过使用一个RNN将输入序列映射到嵌入,并使用另一个(可能相同的)RNN将嵌入映射到输出序列来消除这些约束。Bahdanau等人通过使用基于内容的注意机制从输入中传播额外的上下文信息来增强解码器。这些发展使得将rnn应用于新的领域成为可能,在自然语言处理的核心问题上取得了最先进的结果。

Ptr-Net: 一种新的指针网络体系结构及其应用

尽管如此,这些方法仍然需要先验地固定输出字典的大小。由于这个约束,我们不能直接将这个框架应用于组合问题,其中输出字典的大小取决于输入序列的长度。在本文中,我们通过重新利用注意力机制来创建指向输入元素的指针来解决这一限制。我们证明,由此产生的架构,我们称之为指针网络(Ptr-Nets),可以训练为三个组合优化问题——计算Convex Hull、Delaunay三角和旅行商问题(TSP)——输出满意的解决方案。由此产生的模型以纯数据驱动的方式产生这些问题的近似解决方案(即,当我们只有输入和期望输出的示例时)。所提出的方法如图1所示。

2 方法

传统的seq2seq模型无法解决输出序列的词汇表会随着输入序列长度的改变而改变的问题。对于这类问题,输出往往是输入集合的子集。基于这种特点,作者考虑加入一个指针,对应输入序列的一个元素,从而可以直接操作输入序列而不需要特意设定输出词汇表。

传统的Attention如下:

Ptr-Net: 一种新的指针网络体系结构及其应用

而需要输出直接复制输入的一部分内容时,则可以令指针网络的输出为输入各个token的概率分布,也即

Ptr-Net: 一种新的指针网络体系结构及其应用

其中softmax将向量u_i归一化为输入字典上的输出分布,v、w1和w2是输出模型的可学习参数。指针网络的方法专门针对输出离散且对应于输入位置的问题。这样的问题可以人为地解决——例如,可以学习使用RNN直接输出目标点的坐标。

Ptr-Net: 一种新的指针网络体系结构及其应用

3 实验

作者在3个问题上进行了实验:Convex Hull、Delaunay Triangulation和TSP问题。这些问题的一大特点就是输出都来源于输入,因此指针网络对于这类问题完美匹配。

Ptr-Net: 一种新的指针网络体系结构及其应用

Ptr-Net: 一种新的指针网络体系结构及其应用

4 总结

本文描述了Ptr-Net,这是一种新的体系结构,它允许我们学习给定另一个序列P的一个序列C_P的条件概率,其中C_P是对应于P中的位置的离散token序列。本文证明了Ptr-Net可以用来学习三种不同组合优化问题的解。该方法适用于可变大小的输入(产生可变大小的输出字典),这是基线模型(有或没有注意的序列到序列)不能直接做的事情。更令人印象深刻的是,它们在固定输入大小问题上的表现优于基线——这两种模型都可以应用于此。

5 参考

  1. Pointer Networks简介及其应用,zhuanlan.zhihu.com/p/48959800
本网站的内容主要来自互联网上的各种资源,仅供参考和信息分享之用,不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益,请联系我们,我们将尽快采取行动,包括删除或更正。
AI教程

如何使用New Bing进行聊天

2023-12-16 23:16:14

AI教程

Github Copilot: Revolutionizing AI-assisted Programming

2023-12-17 1:36:14

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索