深度学习数学公式汇总
激活函数
- erf:error function or Gauss error function
- Sigmoid / logistic
- softmax
- tanh
- GLU
- GELU
- Swiss
- SwiGLU
erf 高斯误差函数
sigmoid函数
logistic function是一种sigmoid function, 某一类形如"S"的函数,都可以成为sigmoid
取值范围(0,1),导数取值范围为(0,0.25]
softmax函数
其中
按
按
Softmax Cross-Entropy Loss:
tanh函数
双曲正切函数(hyperbolic tangent function)
取值范围为(-1,1),导数为:
取值(0,1)
门控线性单元(Gated Linear Unit,GLU)
即x的两个线性映射(linear projection)逐点相乘,逐点相乘也叫Hadamard积(Hadamard Product)有些也用
GELU(Gaussian Error Linear Unit,高斯误差线性单元)
Swish 函数:一种自门控(Self-Gated)激活函数
SwiGLU
其中
损失函数
- 最小二乘 least sqaure / Mean Squared Error (均方误差)
- 交叉熵(Cross-Entropy)
- KL散度(Kullback-Leibler Divergence),相对熵(Relative entropy)
- 负对数似然Negative Log Likelihood
- 泛化误差 generalization error
1.最小二乘
损失函数为:
对
最小二乘法的几何意义是高维空间中的一个向量在低维子空间的投影
2.交叉熵
二分类:
其中:
—— 表示样本 i 的label,正类为 1 ,负类为 0 —— 表示样本 i 预测为正类的概率
多分类:
其中:
——类别的数量 ——符号函数( 0 或 1 ),如果样本 i 的真实类别等于 c 取 1 ,否则取 0 ——观测样本 i 属于类别 c 的预测概率
3. KL散度 / 相对熵
考虑某个未知的分布 p(x),假定用一个近似的分布 q(x) 对它进行建模
最小化 KL 散度等价于最大化似然函数
4.负对数似然NLL
假设数据点独立同分布,则似然函数为:
最小化其负对数似然,则得到交叉熵公式:
评估函数
- 困惑度(perplexity)
1. 困惑度(perplexity)
我们把
模型优化
- 正则化
1. 正则化
⭐模型训练过程
- LayerNorm 层归一化
- RMS Pre-Norm
1. 层归一化
2. RMS Norm
模型训练方式
- 无监督预训练+监督微调(GPT-1, BERT)
1. GPT-1 的无监督预训练(Unsupervised Pre-training)
以下是用未标注的数据做无监督的预训练的过程。
如果模型的上下文窗口(Context Windows)大小是
我们的目标就是让这个概率
明确了上面目标函数后,我们来看下 GPT-1 预训练模型。
以最大化
2. GPT-1 的监督微调(Supervised Fine-Tuning,SFT)
对于不同的任务,在 fine-tune 阶段将所有任务的输入结构都转换成 token 序列,喂给已经预训练好的模型来 fine-tune,然后再接一个 linear+softmax。
设我们有一个标注过的数据集
这个过程中,就学习到了
这样整体看,我们把两个训练过程(无监督预训练、监督训练)联合起来。其中在无监督预训练过程中,我们顺手完成了语言建模,它其实相当于我们的一个辅助目标。我们发现这个辅助目标有两个好处:提升了监督模型的泛化能力;加速模型收敛。
在这样的「无监督预训练 + 监督训练」方法下,目标函数就是最大化下面这个组合(引入一个
图论
- 拉普拉斯矩阵(Laplacian matrix)/调和矩阵(harmonic matrix)
1. 拉普拉斯矩阵
拉普拉斯矩阵是图论中用到的一种重要矩阵,给定一个有n个顶点的图 G=(V,E),其拉普拉斯矩阵被定义为 L = D-A,D其中为图的度矩阵(表示边数),A为图的邻接矩阵。
![]() |
![]() |
![]() |
![]() |
---|---|---|---|
图 | 邻接矩阵A | 度矩阵D | 拉普拉斯矩阵 |
- 正则化的拉普拉斯矩阵(Symmetric normalized Laplacian):
- 图中的拉普拉斯算子 = 图的拉普拉斯矩阵
本文作者:Rayinfos
本文链接:https://www.cnblogs.com/rayinfos/p/17590941.html
版权声明:本作品采用知识共享署名-非商业性使用-禁止演绎 2.5 中国大陆许可协议进行许可。
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】凌霞软件回馈社区,博客园 & 1Panel & Halo 联合会员上线
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】博客园社区专享云产品让利特惠,阿里云新客6.5折上折
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步