Transformer解码器结构及工作流程解析

释放双眼,带上耳机,听听看~!
了解Transformer解码器的结构和工作流程,包括带掩码的多头注意力层、前馈网络层和线性回归,以及解码器的输入结构和特点。

概述

Transformer解码器结构及工作流程解析

Decoder也是N=6层堆叠的结构,每层被分3层: 两个注意力层和前馈网络层,同Encoder一样在主层后都加有Add&Norm,负责残差连接和归一化操作。

Encoder与Decoder有三大主要的不同

  1. 第一层 Masked Multi-Head Attention: 采用Masked操作
  2. 第二层 Multi-Head Attention: K, V矩阵是使用Encoder编码信息矩阵C进行计算,而Q使用上一个Decoder的输出计算。
  3. 概率计算输出: Linear和Softmax作用于前向网络层的输出后面,来预测对应的word的probabilities

Encoder的输入矩阵用X表示,输出矩阵用C表示

流程图表示如下:

graph LR
A(Output Embedding) --Positional Encoding--> B[带掩码的多头注意力层] --> C[多头注意力层] --> D[前馈网络层] --特征值 --> D1[Add&Norm] --> E[Linear] --> F[Softmax] --> G(OutputProbilities)

style A fill:#fff,stroke:#333,stroke-width:1px;
style G fill:#fff,stroke:#333,stroke-width:1px;
style D1 fill:#eee,stroke:#333,stroke-width:1px;

分析如下:

  1. 我们将 输入转换为嵌入矩阵,再加上位置编码,输入解码器
  2. 解码器收到输入,将其发送给带掩码的多头注意力层,生成注意力矩阵M
  3. 将注意力矩阵M和Encoder输出的特征值R作为多头注意力层的输入,输出第二层注意力矩阵
  4. 从第二层的多头注意力层得到注意力矩阵,送入前馈网络层,后者将解码后的特征作为输出
  5. 前馈网络层的输出经过Add&Norm后,做linear及Softmax回归,并输出目标句子的特征

Decoder 的输入

Decoder的输入结构与encoder的一样。

www.jianshu.com/p/00f5a8e12…

本网站的内容主要来自互联网上的各种资源,仅供参考和信息分享之用,不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益,请联系我们,我们将尽快采取行动,包括删除或更正。
AI教程

LSTM网络结构与核心思想详解

2023-11-23 20:44:14

AI教程

S-LoRA: 一种高效的大规模微调方式

2023-11-23 21:01:55

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索