大模型 - 随笔分类 - little小新

6、seq2seq - Transformer-Encoder、Transformer-Decoder

摘要：Attention - 注意力机制 seq2seq是 Sequence to Sequence 的简写，seq2seq模型的核心就是编码器（Encoder）和解码器（Decoder）组成的通过在seq2seq结构中加入Attention机制，是seq2seq的性能大大提升，先在seq2seq被广泛阅读全文

posted @ 2025-03-08 18:54 little小新阅读(160) 评论(0) 推荐(0)

5.深度学习的经典模型

摘要：RNN - Recurrent Neural Network RNN跟传统神经网络最大的区别在于每次都会将前一次的输出结果，带到下一次的隐藏层中，一起训练。也就是说，RNN前面所有的输入都会对未来的输出产生影响，就是把所有的输入都带到下一次如下图，RNN中短期的记忆影响较大（如橙色区域），但是长期阅读全文

posted @ 2025-03-08 14:43 little小新阅读(34) 评论(0) 推荐(0)

4.优化器 - 模型评估

摘要：优化器 - optimizer 优化器就是在深度学习反向传播过程中，指引损失函数（目标函数）的各个参数往正确的方向更新合适的大小，使得更新后的各个参数损失函数（目标函数）值不断逼近全局最小优化器不计算梯度，他只是梯度的更新者，它决定了以什么样的形式更新参数如果损失函数是一座山峰，优化器会通过梯度阅读全文

posted @ 2025-02-23 20:44 little小新阅读(138) 评论(0) 推荐(0)

3.正向传播与反向传播 - 学习率LR - Batch size - 激活函数 - 损失函数

摘要：正向传播尽量降低损失函数梯度梯度是一个向量（矢量），函数在一点处沿着该点的梯度方向变化最快，变化率最大。换而言之，自变量沿着梯度方向变化，能够使应变量（函数值）变化最大。如图：如果想要 w 下降最快就沿着梯度的负方向下降，就能降低损失函数方向传播更新各个参数的值（如图中 w 的值），重新阅读全文

posted @ 2025-02-23 17:57 little小新阅读(276) 评论(0) 推荐(0)

2.模型训练流程

摘要：基础名词解释样本：一条数据特征：被观测对象的可测量特征，例如西瓜的颜色、瓜蒂、纹路、敲击声等特征向量：用一个d维向量表征一个样本的所有或部分特征；向量（数组） - [1,2,3] 标签/真实值：样本特征对应的真是类型或者真是取值，即正确答案数据集（dataset）：多条样本组成的集合训练阅读全文

posted @ 2025-02-17 22:34 little小新阅读(145) 评论(0) 推荐(0)

1.初识机器学习

摘要：LM LLM ：大语言模型 LMM ：多模态模型（处理图片视频等）所谓模型,就是一个包含了大量未知参数的函数所谓训练，就是通过大量的数据去迭代逼近这些未知参数的最优解机器学习:是一门专门研究计算机怎盐模拟或实现人类的学习行为，以获取新的知识领域或技能，重新组织已有的知识结构使之不断改善自身阅读全文

posted @ 2025-02-17 21:40 little小新阅读(85) 评论(0) 推荐(0)

littlecc

无限制的技术都要学

随笔分类 - 大模型

公告