NLP原理系列1-说清楚transformer原理

来用思维导图和截图描述。

　　思维导图的本质是变化(解决问题)-> 更好的，或者复杂问题拆分为小问题以及拆分的思路。

参考链接：李宏毅 transformer原理。

经典全图

0 transformer的前世今生

1 seq2seq

　　序列化数据到序列化数据，只要能把训练数据和label转为序列，就都可以用这个模型来训练

2 attention和self-attention

　　当输入为一个不定长的向量，就得使用attention机制。

　　可以是语句txt，每个词是一个向量，每个句子就是一个vec set

　　那么怎么把一个词转为向量呢？

3 输入和输出到底可以都是什么？

输入： 1 文本 2 语音 3 graph

输出：对应的vec label，不对应的vec label数量。

一 tansformer的推理及训练过程

1 tf 训练过程

红框部分是训练得grandtruth，正确答案。

decoder的上面输出部分是推理结果。采用了一些teach model

2 tf 推理过程

假如我们的场景是问答，问题是“中国的首都是哪里？”
推理阶段最开始，左侧Input就是这个问题，右下Outputs就是起始符，Inputs和Outputs共同进行前向传播，它们会在中间蓝笔红笔那部分完成汇合，然后到右上侧推理出“北”（如果模型效果尚可，确实能正确推理出“北京”的话），“北”作为本步推理结果，就会被送入Outputs拼在起始符后方，然后Inputs和带有“北”的Outputs又共同前向传播，又再汇合推理出“京”…大抵是这么一个往复的过程

推理优化过程

紫色部分只执行一次，如果计算出来的红圈部分保存的话。红圈部分是 key 和value，篮圈是query。

如描述的推理过程，推理到 “北”字后，只有那个"北"的 logist 回来到红框位置生成新的query，与原来的key和value汇合。

绿色部分是一个 decoder block块

我们构造一个较复杂多层模型

保存任何一组key和val即可。

二更多细节transformer 数据如何运行

2.1 encoder前半部分

2.2 encoder后半部分

2.3 attention_mask如何起作用

1）在训练中的作用

2）在推理中的作用

3）在encoder还是在decoder中起作用？

参考资料：1 lihongyi 1小时32分钟原理 2 编写代码半小时 3 走读bloom源码 1小时，目标 attention_mask如何运作

完整描述 -------------------------

参考链接：3.【李宏毅机器学习2021】Transformer (上)_哔哩哔哩_bilibili

2.4 推理过程

AT机制，先(程序输入decoder一个 BOS，)， dec的输出返回来作为输入，逐个推理，最后推理到end。

attention_mask 遮挡未推理位置

推理过程中也是输出的一个字，作为下一个的输入。 -> 那么计算attention_mask不就是没有意义了吗？？？？？？？？？？

如何解决 exposure bias-> scheduled sampling 一步错步步错的问题

2.5 训练过程

1 确定crossentypy为损失函数

2 关于decoder的输入

使用正确数据 grandtruth ，使用teacher_forcing方法. 是否开attention_mask？？？？？？？

3 对于optimization的口诀

比如metric 使用BELU，但是不太容易合入更新梯度中，就使用RL。

4 如何更新encoder参数？？？？？？？

沿着蓝色线路反向更新

5 一些技巧

1）copy机制

2）guide

3）对结果 beam search

三详解self-attention

参考视频：1. 【李宏毅机器学习2021】自注意力机制 (Self-attention) (上)_哔哩哔哩_bilibili

背景：

序列模型 -> 文字声音graph可以处理为vec序列 -》对于多vec输入情况不能输出

比如：词性标注，舆情分析。

1 词性标注

sequence：I saw a saw.

第一个saw为看见为 V动词，第二个saw为锯子为N名词。

传统做法对于同一个词的不同词性标注，存在问题。

2 解决办法

2.1 使用窗口某一个词的前后各5个词，即可关联它的词性。

但是训练时每个语料序列的长度不等，只能选最长的序列，然后填充其余短的，这样的训练不容易训练。

2.2 引出self-attention层

类似cnn层，有单层结构，同样可以组合若干层。

结构为

具体结构：

其中q1与k1，qn与qn相乘后，有些公式会除以根号d（维度），相当于正则。

　　α1,1 撇，是qn与qn相乘结果的softmax值。

最后训练的结果b1 会最接近a1 与an的相关度与价值。

而且可以并行计算出b1，bn

数学公式为：

3 代码

参考视频：

4 矩阵的计算过程

5 多头注意力机制

即每个向量，对应多个qkv

抽取多个不同维度的相关性。

6 小结

self-attention中学到什么？

Wq，Wk，Wv，

学的好，即当前layer层能生成的sequnce表征更多词关系，及含义的，及语义理解上的特征。

7 position embed

位置编码，为了让注意力抽取特征的同时，也关注每个词的位置信息。

这里值得研究，有很多种位置编码。

8 attention对比CNN与RNN

对比CNN，更全面感知野的CNN

对比RNN， 1 不会信息消失，每个词的相关性都会在attention中计算 2 可以并行计算效率更高

9 加速transformers 更多变种

因为attention机制可以加速，所以出现了很多transformer的变种。

值得去研究

四 GPT 仅用decoder

1 past-key_val=true 保存过程

截图为decoder的单层结构图，也是GPT的简化图。 12x即重复12层block。

GPT全部是decoder block 也是会计算key val所以也可以保存起来，那么每一层得 key-val都是新的，所以实际是保存了12组 key-val。 (从代码中读到，可以再次确认)：已确认实际是保存了12组

动画：encoder+decoder

李宏毅-Transformer_哔哩哔哩_bilibili 大约在35分59秒

实际这三个为一层encoder。 qkv如图，三行在同一层里。

2 为什么 decoder可以自己计算key和val呢？

FAQ：

1 BOS在推理和训练时

都是谁给的输入，是自动的吗？

2 在GPT2中没有encoder部分，那么怎么计算的key和val呢，

　　训练GPT2的时候，怎么把输入数据传给 decoder呢

　　经过embedding 得到词向量-> decoder，那么teacherforcing的 grandtruth 还传入吗？

3 attention_mask

训练时候也是遮挡未推理部分吗？

-是的

程序中怎么设定attention_mask逐个遮掩？

训练时前向推理，每次输入就是一个token了吧为什么还需要attention_mask呢？

截图是推理任务时的运转图

4 NAT

no autoregression train

对比autoregression

1）可以并行推理 2）长度可控

5 训练时候decoder的输入是带有推理历史还是只有当前的一个token？

推理出来学的时候，需要接收的输入是红圈的所有内容还是只是绿圈的内容？

6 推理任务时候decoder的输入是带有推理历史还是只有当前的一个token？

7 什么时候只要输入绿色圈的一个token内容？

即 past_key_val？，那么输入一个token时候，还需要attention_mask吗？

8 对于定长的输入，比如定长50，我得query只有5个token，比如你多大了？，程序会填充45个padding。

　相比于我的query是 50个token全占满，请问老师哪个forward计算性能更快。，还是差不多。

　　我的理解是填充45个padding，的向量，走到attention_mask的时候，被变为0000-45个0，5个1，最后计算就是那5个数值，是否forward计算会更快。

老师也不确定，但是可以确定，添加pad的，参与0计算，应该会快一点。

这可以走读代码了解到。

9 输入不定长的原理是什么？

为什么不限定长度 query，都能被embed层接收？

从代码可以看到

比如ChatGLM，你可以看下这里：https://github.com/THUDM/ChatGLM-6B/blob/c26a7de24de1cad5512a50611f39a9cea7eb436f/ptuning/main.py#L176

未能解决问题。尝试自己读源码实现。

C:\Users\xialiu05\AppData\Local\Programs\Python\Python310\Lib\site-packages\transformers\generation\utils.py

        此时的输入还是  tensor([[    1,  2214,  2172,  4381, 12253,  1518,     2,     2]])


    def sample(
{'input_ids': tensor([[    1,  2214,  2172,  4381, 12253,  1518,     2,     2]]), 'past_key_values': None, 'use_cache': True, 'attention_mask': tensor([[1, 1, 1, 1, 1, 1, 1, 1]])}
            outputs = self(


C:\Users\xialiu05\AppData\Local\Programs\Python\Python310\Lib\site-packages\transformers\models\bloom\modeling_bloom.py
        transformer_outputs = self.transformer(
	state： tensor([[    1,  2214,  2172,  4381, 12253,  1518,     2,     2]])



C:\Users\xialiu05\AppData\Local\Programs\Python\Python310\Lib\site-packages\transformers\models\bloom\modeling_bloom.py
	class BloomModel(BloomPreTrainedModel):
	forward                                                                             -input_ids （1，8）
	inputs_embeds
		self.word_embeddings = nn.Embedding(config.vocab_size, self.embed_dim)      - vob num， dim = （46145，  2048）
	hidden_states = self.word_embeddings_layernorm(inputs_embeds)     (inputs_embeds)  =  (1，8，2048)

　　原理为C:\Users\xialiu05\AppData\Local\Programs\Python\Python310\Lib\site-packages\torch\nn\modules\sparse.py

　　　　class Embedding：

　　　　　　介绍描述

　　　　1 no padinx

　　　　　　inputs =1，8 其中数值均为索引

　　　　　　embed = （46145， 2048）第一个数值为词表大小， 2048为词向量的维度。

　　　　　　1）先对应词表查到索引的向量

　　　　　　2）变为1 8 2048，即每个向量都是2048维

　　　　　　3）后面网络结构输入为2048维，这样就可以矩阵计算。

　　　　　　padding 为50维在这一步基本计算性能差异不大，因为都是索引。

　　　　　　在后面的矩阵计算是否因为attention 原因会有差异，有待验证。

　　　　2 padinx

posted on 2023-08-30 09:39 lexn 阅读(384) 评论(0) 编辑收藏举报

刷新页面返回顶部

NLP原理系列1-说清楚transformer原理

NLP原理系列1-说清楚transformer原理

0 transformer的前世今生

1 seq2seq

2 attention和self-attention

一 tansformer的推理及训练过程

1 tf 训练过程

2 tf 推理过程

二更多细节transformer 数据如何运行

三详解self-attention

四 GPT 仅用decoder

1 past-key_val=true 保存过程

2 为什么 decoder可以自己计算key和val呢？

导航

公告

NLP原理系列1-说清楚transformer原理

NLP原理系列1-说清楚transformer原理

0 transformer的前世今生

1 seq2seq

2 attention和self-attention

一 tansformer的推理及训练过程

1 tf 训练过程

2 tf 推理过程

二 更多细节transformer 数据如何运行

三 详解self-attention

四 GPT 仅用decoder

1 past-key_val=true 保存过程

2 为什么 decoder可以自己计算key和val呢？

导航

公告

二更多细节transformer 数据如何运行

三详解self-attention