【阅读笔记】关于《一本书读懂ChatGPT》阅读笔记

机器学习与深度学习比较#

ML DL
数据 适用数据量小、维度低的情况 训练需要较多数据量
特征工程 需人工参与 无需手工提取
复杂度 简单的数学函数 可拟合出任意函数
解释性 容易解释 可解释性较差

神经网络简述#

感知机#

单层感知机 Perceptron#

组成: 一个/多个输入信号+偏置项+权重+一个输出信号
其训练过程是不断调整权重和偏置项
可以看作逻辑回归,解决二分类问题,只能处理线性问题

多层感知机/全连接神经网络 Multilayer Perceptron/MLP#

是一种前馈神经网络
组成: 输入层+一个/多个隐藏层+输出层

卷积神经网络#

CNN Convolutional Nerual Nets#

原理:将一小块区域(卷积核)在整个图像/数据集上滑动,将每个区域与卷积核相乘,对结果求和(加权求和),生成新图像
特点: 能够很好处理网格,常用于图像处理
典型应用:图像处理

循环神经网络#

RNN Recurrent Neural Nets#

特点: 含有可以保存之前信息的记忆单元,可以考虑之前的输入,即可以很好地应对序列数据的变化,适用于处理序列数据/NLP。
缺点:难以处理长序列,因为训练过程中,调整信号会随时间步长的增加而消失。
建模方式:

一对多 多对一 多对多
场景 给定一张图片生成文字描述 情感分类 翻译文章、文本摘要、智能对话
描述 接收一个输入,生成一个序列 给定一个序列,生成一个输出 给定一个序列,生成一个序列

LSTM Long Short-Term Memory#

特点: 含有门控机制,允许神经网络选择性遗忘或记忆之前的信息,能够在长序列上有效地传递调整信号。
组成:

门控 功能
遗忘门 决定要遗忘多少过去信息
输入门 决定当前输入需要记忆多少信息
输出门 控制输出多少信息

注意力机制#

特点:改进LSTM对序列过长处理能力较弱的问题,学习人脑的注意力,将注意力放在重要的信息上,忽略其他信息。不会像RNN随着时间的推移,注意力下降。
组成:编码器-解码器

自注意力机制 Transformer#

特点:改进LSTM和RNN计算速度较慢(最早是为了解决循环神经网络RNN在神经机器翻译(Neural Machine Translation \ NMT)中无法有效地并行计算的效率问题)
原理:在编码器内部让输入中的所有单词彼此之间进行计算,通过计算结果分配注意力。
组成: 编码器-解码器
编码器:多头自注意力模块->前馈神经网络
解码器:遮盖式自注意力模块-> 编解码注意力模块->前馈神经网络
由于,使用自注意力机制会出现时序顺序丢失的问题,因此,在自注意力模块前,会对每个字进行位置编码,避免出现无法识别“我吃苹果”、“苹果吃我”。
在机器翻译场景中,编码器encoder用于生成原始文本的语义表征,而解码器decoder则利用原始文本的语义表征,转写得到目标语言的翻译文本。
image

工作流程:

  1. 输入信息进行位置编码;
  2. 多个自注意力模块计算自注意力信息,为后续分配注意力做准备;
  3. 合并多个自注意力信息,经前馈神经网络模块做信息处理;
  4. 多次重复步骤2-3,将处理后的信息传递到解码器
  5. 解码器根据已预测出来的结果计算遮盖式自注意力,分配注意力;
  6. 计算编码-解码注意力;
  7. 经前馈神经网络模块做信息处理
  8. 多次重复步骤5-7;
  9. 计算下一个预测的概率并输出一个字。

GAN 生成对抗网络 Generative Adversairal Networks#

组成: 一个生成器+一个判别器
思想: 零和博弈
原理: 生成器生成伪造的数据,判别器判别数据是真实还是伪造。在训练过程中,生成器会企图欺骗判别器,使其无法分别真实数据和假数据。用一种竞争关系促进两者的改进。
典型应用: 图像生成、修复和转换等

神经网络优化#

BP 反向传播算法 back-propagation algorithm#

原理: 通过计算预测值与实际值的误差,再反向传播误差更新神经网络的权重,使得预测值与实际值更相近/使神经网络逐渐逼近目标函数。
组成:前向传播+反向传播
反向传播: 计算每层的误差和梯度,根据梯度的方向更新权重(梯度下降法更新权重),使得误差逐渐减小。
反向传播-误差计算: 链式法则
反向传播-梯度计算:反向传播算法
缺点: 容易过拟合(可以理解为矫枉过正?),可以引入超参:学习率、正则化系数等。

GPT实现过程#

构成#

Transformer解码器去除编解码注意力模块,解码器模块堆叠n层。

作者:Gim

出处:https://www.cnblogs.com/Gimm/p/18177045

版权:本作品采用「署名-非商业性使用-相同方式共享 4.0 国际」许可协议进行许可。

posted @   踩坑大王  阅读(17)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· 阿里巴巴 QwQ-32B真的超越了 DeepSeek R-1吗?
· 【译】Visual Studio 中新的强大生产力特性
· 10年+ .NET Coder 心语 ── 封装的思维:从隐藏、稳定开始理解其本质意义
· 【设计模式】告别冗长if-else语句:使用策略模式优化代码结构
more_horiz
keyboard_arrow_up dark_mode palette
选择主题
menu
点击右上角即可分享
微信分享提示