【神经网络组件】Transformer Encoder

【神经网络组件】Transformer Encoder

1. seq2seq模型

  • 什么是sequence:sequence指由多个向量组成的序列。例如,有三个向量:a=[1,0,0]T,b=[0,1,0]T,c=[0,0,1]T,那么[a,b,c]构成一个sequence。

  • 什么是seq2seq模型:

    • seq2seq并不单指哪一个模型,而是一类模型的总称。Transformer就是seq2seq中的一种,也是最出名的一种。
    • seq2seq有以下特点:它的输入是一个sequence,输出也是一个sequence,且输出sequence的长度不能事先确定,需要模型自主学习。

    例如,机器翻译模型一般都是seq2seq模型。

    如果想要把一段中文翻译成英文,那么模型的输入是中文,其中每个汉字可以表示成一个向量,这段中文可以表示成一个由向量组成的sequence。

    输出是中文对应的英文,其中每个单词是一个向量,因此输出也可以表示成一个sequence。但是,输出sequence的长度不能确定,因为不能事先知道翻译过来的英文包含多少单词。

  • seq2seq的通用结构:Encoder-Decoder结构。Encoder处理输入sequence,把处理好的结果丢给Decoder,由Decoder生成输出sequence。

    image-20241102134712079

Transformer也是seq2seq模型,因此,Transformer中也分为Encoder和Decoder两部分。

2. 为什么只需要Transformer Encoder

对于Transformer中的Encoder和Decoder,可以这样理解它们各自的功能:Encoder负责对输入数据进行编码,Decoder根据编码后的数据生成新的序列。

在一些场景中,只需要对输入进行编码,不需要生成新的序列,也就是说,只会用到Transformer Encoder,不会用到Transformer Decoder。例如,情感分析,主题分类,垃圾邮件检测等文本分类任务;词性标注,命名实体识别等序列标注任务;以及在BERT中,都只会用到Transformer Encoder,而不会用到Transformer Decoder。

3. Transformer Encoder的结构

如果把Transformer Encoder看作一个黑盒,那么其输入是一个sequence,输出也是一个sequence,且输入sequence和输出sequence等长。

in_1,in_2,...,in_n

Transformer Encoder

out_1,out_2,...,out_n

Encoder的内部是什么样的呢?

Encoder是由很多block连接在一起的。如果把每个block看作一个黑盒,那么每个block的输入是一个sequence,输出是同样长度的sequence。

Transformer Encoder

block1

block2

...

blockn

in_1,in_2,...,in_n

out_1,out_2,...,out_n

block的内部是什么样的呢?

每个block的结构如下图。

image-20241102140352617

可以看到,block的结构大概分为两块,第一块是Multi-Head Attention和Add&Norm;第二块是Feed Forward 和Add&Norm。下面对这两块逐一讲解。

Multi-Head Attention和Add&Norm:

  • Multi-Head Attention表示多头自注意力层。

  • Add&Norm:

    • Add表示残差

    • Norm表示lay normalization:计算sequence中,一个输入向量所有维度的均值和方差,对这个输入向量做归一化。例如,输入向量是x=[x1,x2,,xK],计算均值m=i=1Kxi/K,方差σ=i=1K(xim)2/K。对于x中的元素xi,经过layer norm的输出xi可以表示为xi=ximσ

      image-20241102140536779

因此,block中这一块的结构可以表示下面的形式

input

self-attention层

layer normalization

output

Feed Forward 和Add&Norm:

这一块和上一块很像,因此只是简单讲一下。

  • Feed Forward :全连接层。
  • Add&Norm:残差+layer normalization

其结构可以表示下面的形式

input

Feed Forward层

layer normalization

output

Transformer Encoder的完整结构

在Transformer中,为了更好的利用位置信息,还要加上位置编码。

因此,Transformer Encoder的完整结构如下图。

image-20241110202019095

posted @   Brain404  阅读(120)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 无需6万激活码!GitHub神秘组织3小时极速复刻Manus,手把手教你使用OpenManus搭建本
· C#/.NET/.NET Core优秀项目和框架2025年2月简报
· 什么是nginx的强缓存和协商缓存
· 一文读懂知识蒸馏
· Manus爆火,是硬核还是营销?
点击右上角即可分享
微信分享提示