随笔分类 -  大模型

摘要:Attention - 注意力机制 seq2seq是 Sequence to Sequence 的简写,seq2seq模型的核心就是编码器(Encoder)和解码器(Decoder)组成的 通过在seq2seq结构中加入Attention机制,是seq2seq的性能大大提升,先在seq2seq被广泛 阅读全文
posted @ 2025-03-08 18:54 little小新 阅读(160) 评论(0) 推荐(0)
摘要:RNN - Recurrent Neural Network RNN跟传统神经网络最大的区别在于每次都会将前一次的输出结果,带到下一次的隐藏层中,一起训练。也就是说,RNN前面所有的输入都会对未来的输出产生影响,就是把所有的输入都带到下一次 如下图,RNN中短期的记忆影响较大(如橙色区域),但是长期 阅读全文
posted @ 2025-03-08 14:43 little小新 阅读(34) 评论(0) 推荐(0)
摘要:优化器 - optimizer 优化器就是在深度学习反向传播过程中,指引损失函数(目标函数)的各个参数往正确的方向更新合适的大小,使得更新后的各个参数损失函数(目标函数)值不断逼近全局最小 优化器不计算梯度,他只是梯度的更新者,它决定了以什么样的形式更新参数 如果损失函数是一座山峰,优化器会通过梯度 阅读全文
posted @ 2025-02-23 20:44 little小新 阅读(138) 评论(0) 推荐(0)
摘要:正向传播 尽量降低损失函数 梯度 梯度是一个向量(矢量),函数在一点处沿着该点的梯度方向变化最快,变化率最大。换而言之,自变量沿着梯度方向变化,能够使应变量(函数值)变化最大。 如图:如果想要 w 下降最快就沿着梯度的负方向下降,就能降低损失函数 方向传播 更新各个参数的值(如图中 w 的值),重新 阅读全文
posted @ 2025-02-23 17:57 little小新 阅读(275) 评论(0) 推荐(0)
摘要:基础名词解释 样本:一条数据 特征:被观测对象的可测量特征,例如西瓜的颜色、瓜蒂、纹路、敲击声等 特征向量:用一个d维向量表征一个样本的所有或部分特征; 向量(数组) - [1,2,3] 标签/真实值:样本特征对应的真是类型或者真是取值,即正确答案 数据集(dataset):多条样本组成的集合 训练 阅读全文
posted @ 2025-02-17 22:34 little小新 阅读(145) 评论(0) 推荐(0)
摘要:LM LLM : 大语言模型 LMM : 多模态模型(处理图片视频等) 所谓模型,就是一个包含了大量未知参数的函数 所谓训练,就是通过大量的数据去迭代逼近这些未知参数的最优解 机器学习:是一门专门研究计算机怎盐模拟或实现人类的学习行为,以获取新的知识领域或技能,重新组织已有的知识结构使之不断改善自身 阅读全文
posted @ 2025-02-17 21:40 little小新 阅读(84) 评论(0) 推荐(0)