【阅读笔记】关于《一本书读懂ChatGPT》阅读笔记

机器学习与深度学习比较
神经网络简述
GPT实现过程
- 构成

机器学习与深度学习比较

	ML	DL
数据	适用数据量小、维度低的情况	训练需要较多数据量
特征工程	需人工参与	无需手工提取
复杂度	简单的数学函数	可拟合出任意函数
解释性	容易解释	可解释性较差

神经网络简述

感知机

单层感知机 Perceptron

组成：一个/多个输入信号+偏置项+权重+一个输出信号
其训练过程是不断调整权重和偏置项
可以看作逻辑回归，解决二分类问题，只能处理线性问题

多层感知机/全连接神经网络 Multilayer Perceptron/MLP

是一种前馈神经网络
组成：输入层+一个/多个隐藏层+输出层

卷积神经网络

CNN Convolutional Nerual Nets

原理：将一小块区域（卷积核）在整个图像/数据集上滑动，将每个区域与卷积核相乘，对结果求和（加权求和），生成新图像
特点：能够很好处理网格，常用于图像处理
典型应用：图像处理

循环神经网络

RNN Recurrent Neural Nets

特点：含有可以保存之前信息的记忆单元，可以考虑之前的输入，即可以很好地应对序列数据的变化，适用于处理序列数据/NLP。
缺点：难以处理长序列，因为训练过程中，调整信号会随时间步长的增加而消失。
建模方式：

	一对多	多对一	多对多
场景	给定一张图片生成文字描述	情感分类	翻译文章、文本摘要、智能对话
描述	接收一个输入，生成一个序列	给定一个序列，生成一个输出	给定一个序列，生成一个序列

LSTM Long Short-Term Memory

特点：含有门控机制，允许神经网络选择性遗忘或记忆之前的信息，能够在长序列上有效地传递调整信号。
组成：

门控	功能
遗忘门	决定要遗忘多少过去信息
输入门	决定当前输入需要记忆多少信息
输出门	控制输出多少信息

注意力机制

特点：改进LSTM对序列过长处理能力较弱的问题，学习人脑的注意力，将注意力放在重要的信息上，忽略其他信息。不会像RNN随着时间的推移，注意力下降。
组成：编码器-解码器

自注意力机制 Transformer

特点：改进LSTM和RNN计算速度较慢(最早是为了解决循环神经网络RNN在神经机器翻译（Neural Machine Translation \ NMT）中无法有效地并行计算的效率问题)
原理：在编码器内部让输入中的所有单词彼此之间进行计算，通过计算结果分配注意力。
组成：编码器-解码器
编码器：多头自注意力模块->前馈神经网络
解码器：遮盖式自注意力模块-> 编解码注意力模块->前馈神经网络
由于，使用自注意力机制会出现时序顺序丢失的问题，因此，在自注意力模块前，会对每个字进行位置编码，避免出现无法识别“我吃苹果”、“苹果吃我”。
在机器翻译场景中，编码器encoder用于生成原始文本的语义表征，而解码器decoder则利用原始文本的语义表征，转写得到目标语言的翻译文本。

工作流程：

输入信息进行位置编码；
多个自注意力模块计算自注意力信息，为后续分配注意力做准备；
合并多个自注意力信息，经前馈神经网络模块做信息处理；
多次重复步骤2-3，将处理后的信息传递到解码器
解码器根据已预测出来的结果计算遮盖式自注意力，分配注意力；
计算编码-解码注意力；
经前馈神经网络模块做信息处理
多次重复步骤5-7；
计算下一个预测的概率并输出一个字。

GAN 生成对抗网络 Generative Adversairal Networks

组成：一个生成器+一个判别器
思想：零和博弈
原理：生成器生成伪造的数据，判别器判别数据是真实还是伪造。在训练过程中，生成器会企图欺骗判别器，使其无法分别真实数据和假数据。用一种竞争关系促进两者的改进。
典型应用：图像生成、修复和转换等

神经网络优化

BP 反向传播算法 back-propagation algorithm

原理：通过计算预测值与实际值的误差，再反向传播误差更新神经网络的权重，使得预测值与实际值更相近/使神经网络逐渐逼近目标函数。
组成：前向传播+反向传播
反向传播：计算每层的误差和梯度，根据梯度的方向更新权重(梯度下降法更新权重)，使得误差逐渐减小。
反向传播-误差计算：链式法则
反向传播-梯度计算：反向传播算法
缺点：容易过拟合（可以理解为矫枉过正？），可以引入超参：学习率、正则化系数等。

GPT实现过程

构成

Transformer解码器去除编解码注意力模块，解码器模块堆叠n层。

posted @ 2024-05-07 14:19 踩坑大王阅读(54) 评论(0) 收藏举报

刷新页面返回顶部

Loading

踩坑大王