【阅读笔记】关于《一本书读懂ChatGPT》阅读笔记
机器学习与深度学习比较#
ML | DL | |
---|---|---|
数据 | 适用数据量小、维度低的情况 | 训练需要较多数据量 |
特征工程 | 需人工参与 | 无需手工提取 |
复杂度 | 简单的数学函数 | 可拟合出任意函数 |
解释性 | 容易解释 | 可解释性较差 |
神经网络简述#
感知机#
单层感知机 Perceptron#
组成: 一个/多个输入信号+偏置项+权重+一个输出信号
其训练过程是不断调整权重和偏置项
可以看作逻辑回归,解决二分类问题,只能处理线性问题
多层感知机/全连接神经网络 Multilayer Perceptron/MLP#
是一种前馈神经网络
组成: 输入层+一个/多个隐藏层+输出层
卷积神经网络#
CNN Convolutional Nerual Nets#
原理:将一小块区域(卷积核)在整个图像/数据集上滑动,将每个区域与卷积核相乘,对结果求和(加权求和),生成新图像
特点: 能够很好处理网格,常用于图像处理
典型应用:图像处理
循环神经网络#
RNN Recurrent Neural Nets#
特点: 含有可以保存之前信息的记忆单元,可以考虑之前的输入,即可以很好地应对序列数据的变化,适用于处理序列数据/NLP。
缺点:难以处理长序列,因为训练过程中,调整信号会随时间步长的增加而消失。
建模方式:
一对多 | 多对一 | 多对多 | |
---|---|---|---|
场景 | 给定一张图片生成文字描述 | 情感分类 | 翻译文章、文本摘要、智能对话 |
描述 | 接收一个输入,生成一个序列 | 给定一个序列,生成一个输出 | 给定一个序列,生成一个序列 |
LSTM Long Short-Term Memory#
特点: 含有门控机制,允许神经网络选择性遗忘或记忆之前的信息,能够在长序列上有效地传递调整信号。
组成:
门控 | 功能 |
---|---|
遗忘门 | 决定要遗忘多少过去信息 |
输入门 | 决定当前输入需要记忆多少信息 |
输出门 | 控制输出多少信息 |
注意力机制#
特点:改进LSTM对序列过长处理能力较弱的问题,学习人脑的注意力,将注意力放在重要的信息上,忽略其他信息。不会像RNN随着时间的推移,注意力下降。
组成:编码器-解码器
自注意力机制 Transformer#
特点:改进LSTM和RNN计算速度较慢(最早是为了解决循环神经网络RNN在神经机器翻译(Neural Machine Translation \ NMT)中无法有效地并行计算的效率问题)
原理:在编码器内部让输入中的所有单词彼此之间进行计算,通过计算结果分配注意力。
组成: 编码器-解码器
编码器:多头自注意力模块->前馈神经网络
解码器:遮盖式自注意力模块-> 编解码注意力模块->前馈神经网络
由于,使用自注意力机制会出现时序顺序丢失的问题,因此,在自注意力模块前,会对每个字进行位置编码,避免出现无法识别“我吃苹果”、“苹果吃我”。
在机器翻译场景中,编码器encoder用于生成原始文本的语义表征,而解码器decoder则利用原始文本的语义表征,转写得到目标语言的翻译文本。
工作流程:
- 输入信息进行位置编码;
- 多个自注意力模块计算自注意力信息,为后续分配注意力做准备;
- 合并多个自注意力信息,经前馈神经网络模块做信息处理;
- 多次重复步骤2-3,将处理后的信息传递到解码器
- 解码器根据已预测出来的结果计算遮盖式自注意力,分配注意力;
- 计算编码-解码注意力;
- 经前馈神经网络模块做信息处理
- 多次重复步骤5-7;
- 计算下一个预测的概率并输出一个字。
GAN 生成对抗网络 Generative Adversairal Networks#
组成: 一个生成器+一个判别器
思想: 零和博弈
原理: 生成器生成伪造的数据,判别器判别数据是真实还是伪造。在训练过程中,生成器会企图欺骗判别器,使其无法分别真实数据和假数据。用一种竞争关系促进两者的改进。
典型应用: 图像生成、修复和转换等
神经网络优化#
BP 反向传播算法 back-propagation algorithm#
原理: 通过计算预测值与实际值的误差,再反向传播误差更新神经网络的权重,使得预测值与实际值更相近/使神经网络逐渐逼近目标函数。
组成:前向传播+反向传播
反向传播: 计算每层的误差和梯度,根据梯度的方向更新权重(梯度下降法更新权重),使得误差逐渐减小。
反向传播-误差计算: 链式法则
反向传播-梯度计算:反向传播算法
缺点: 容易过拟合(可以理解为矫枉过正?),可以引入超参:学习率、正则化系数等。
GPT实现过程#
构成#
Transformer解码器去除编解码注意力模块,解码器模块堆叠n层。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· 阿里巴巴 QwQ-32B真的超越了 DeepSeek R-1吗?
· 【译】Visual Studio 中新的强大生产力特性
· 10年+ .NET Coder 心语 ── 封装的思维:从隐藏、稳定开始理解其本质意义
· 【设计模式】告别冗长if-else语句:使用策略模式优化代码结构