Welcome to this fancy|

Rayinfos

园龄:2年8个月粉丝:3关注:0

深度学习数学公式汇总

激活函数

  • erf:error function or Gauss error function
  • Sigmoid / logistic
  • softmax
  • tanh
  • GLU
  • GELU
  • Swiss
  • SwiGLU

erf 高斯误差函数

erf(x)=2π0xet2dt

sigmoid函数

logistic function是一种sigmoid function, 某一类形如"S"的函数,都可以成为sigmoid

f(x)=11+ex

取值范围(0,1),导数取值范围为(0,0.25]

f(x)=f(x)(1f(x))

softmax函数

Softmax(zi)=ezic=1Cezc

其中 zi 为第i个节点的输出值,C为输出节点的个数,即分类的类别个数。通过Softmax函数就可以将多分类的输出值转换为范围在 [0,1] 和为1的概率分布。

softmax(zi)zi=softmax(zi)(1softmax(zi))
softmax(zi)zj=softmax(zi)softmax(zj)

Softmax Cross-Entropy Loss:

L(y,y^)=iyilogy^=iyilogezic=1Cezc

ziL(y,y^)=softmax(zi)yi

tanh函数

双曲正切函数(hyperbolic tangent function)

tanhx=sinhxcoshx=exexex+ex=e2x1e2x+1

取值范围为(-1,1),导数为:

xtanhx=1tanh2x

取值(0,1)

门控线性单元(Gated Linear Unit,GLU)

GLU(x,W,V,b,c)=σ(xW+b)(xV+c)

即x的两个线性映射(linear projection)逐点相乘,逐点相乘也叫Hadamard积(Hadamard Product)有些也用表示

GELU(Gaussian Error Linear Unit,高斯误差线性单元)

GELU(x)=Φ(x)I(x)+(1Φ(x))0x=xΦ(x)

Swish 函数:一种自门控(Self-Gated)激活函数

swish(x)=xα(βx)

SwiGLU

SwiGLU(x,W,V,b,c,β)=Swishβ(xW+b)(xV+c)

其中Swishβ=xσ(βx),β is a learnable parameter


损失函数

  • 最小二乘 least sqaure / Mean Squared Error (均方误差)
  • 交叉熵(Cross-Entropy)
  • KL散度(Kullback-Leibler Divergence),相对熵(Relative entropy)
  • 负对数似然Negative Log Likelihood
  • 泛化误差 generalization error

1.最小二乘

损失函数为:J(θ)=12(XθY)T(XθY)
θ求导取0后:

θ=(XTX)1XTY

最小二乘法的几何意义高维空间中的一个向量在低维子空间的投影

2.交叉熵

二分类:L=1NiLi=1Ni[yilog(pi)+(1yi)log(1pi)]
其中:

  • yi —— 表示样本 i 的label,正类为 1 ,负类为 0
  • pi —— 表示样本 i 预测为正类的概率

多分类:L=1NiLi=1Nic=1Myiclog(pic)
其中:

  • M ——类别的数量
  • yic ——符号函数( 0 或 1 ),如果样本 i 的真实类别等于 c 取 1 ,否则取 0
  • pic ——观测样本 i 属于类别 c 的预测概率

3. KL散度 / 相对熵

考虑某个未知的分布 p(x),假定用一个近似的分布 q(x) 对它进行建模
KL(p||q)=p(x)lnq(x)dx(p(x)lnp(x)dx)=p(x)ln[q(x)p(x)]dx
最小化 KL 散度等价于最大化似然函数

H(X)={xp(x)log(p(x)),Xxp(x)log(p(x)),X

4.负对数似然NLL

假设数据点独立同分布,则似然函数为:

L(x,y)=i=1N(yi^)yi(1yi^)1yi

最小化其负对数似然,则得到交叉熵公式:

NLL(x,y)=i=1N(yilog(yi^)+(1yi)log(1yi^))log(p(x))


评估函数

  • 困惑度(perplexity)

1. 困惑度(perplexity)

ppl(S)=p(w1,w2,w3,...,wm)1/m=i=1m1p(wi|w1,w2,...,wi1)m

我们把x看作是单词, u(x)表示每个位置上单词的真实分布,

u(x|w1,w2,...,wi1)={1,x=wi0,xwi

v(x)是模型的预测分布 p(wi|w1,w2,...,wi1),那么就有交叉熵:

H(u,v)=Eu[logv(x)]=xu(x)logv(x)=1mi=1m(xu(x|w1,...,wi1)logp(wi|w1,w2,...,wi1))=1mi=1m(1×logp(wi|w1,w2,...,wi1)+xwi0×logp(wi|w1,w2,...,wi1))=1mi=1mlogp(wi|w1,w2,...,wi1)=log(ppl(S))


模型优化

  • 正则化

1. 正则化


⭐模型训练过程

  • LayerNorm 层归一化
  • RMS Pre-Norm

1. 层归一化

ai=aiμσgi ,其中 μ=1ni=1naiσ=1ni=1n(aiμ)2

2. RMS Norm

ai=aiRMS(a)gi , 其中 RMS(a)=1ni=1nai2

模型训练方式

  • 无监督预训练+监督微调(GPT-1, BERT)

1. GPT-1 的无监督预训练(Unsupervised Pre-training)

以下是用未标注的数据做无监督的预训练的过程。U=u1,...,un是一个无监督词序列语料,那么语言模型给出这样一个词序列的概率是:
P(U)=P(u1)P(u2|u1)P(u3|u1,u2)...p(un|u1,un1)=inP(ui|u1,...,ui1)
如果模型的上下文窗口(Context Windows)大小是 k 的话,则上式可近似转化为:
P(U)=iP(ui|uik,...,ui1)
我们的目标就是让这个概率 P(U) 最大化,因此我们定义一下目标,即最大化对数似然函数。再将模型的参数 Θ 也考虑进来,则其定义如下:
L1(U)=ilogP(ui|uik,...,ui1;Θ)
明确了上面目标函数后,我们来看下 GPT-1 预训练模型。U=(uk,...,u1)是考虑了上下文的输入词向量矩阵,We是词嵌入矩阵,Wp是位置编码(或叫位置嵌入)矩阵。所有隐藏层都是 transformer_block,第一个隐藏层的输入是 h0,每 i 个隐藏层的输出是 hi。那么 GPT-1 预训练模型可以表示为:
h0=UWe+Wphl=transformerblock(hl1)i[1,n]P(u)=softmax(hnWeT)
以最大化 L1 为目标,经过这样学习大量文本语料后,就得到了一个预训练模型。

2. GPT-1 的监督微调(Supervised Fine-Tuning,SFT)

对于不同的任务,在 fine-tune 阶段将所有任务的输入结构都转换成 token 序列,喂给已经预训练好的模型来 fine-tune,然后再接一个 linear+softmax。
设我们有一个标注过的数据集 C, 组成它的每个样本都包括一个文本序列 x=x1,...,xm 和一个标签 y。微调时,就是把输入 x 经过预训练模型后在最后一个 Decoder 输出的 y,进行线性变换和 softmax 回归:
P(y|x1,...,xm)=softmax(yWy)
这个过程中,就学习到了 WlRm×c 参数矩阵,其中 c 是下游任务目标类别的数量,比如情感分类(positive、neutral、negative)的 c 为 3。在模型使用时,最后得到的 softmax(yWy) 就能得到一组关于目标类别的概率分布了,其中最大的概率值即可看做是结果。监督微调的目标,也是最大化对数似然函数:
L2(C)=(x,y)logP(y|x1,...,xm)
这样整体看,我们把两个训练过程(无监督预训练、监督训练)联合起来。其中在无监督预训练过程中,我们顺手完成了语言建模,它其实相当于我们的一个辅助目标。我们发现这个辅助目标有两个好处:提升了监督模型的泛化能力;加速模型收敛。
在这样的「无监督预训练 + 监督训练」方法下,目标函数就是最大化下面这个组合(引入一个 λ 超参数控制无监督预训练权重):
L3(C)=L2(C)+λL1(C)

图论

  • 拉普拉斯矩阵(Laplacian matrix)/调和矩阵(harmonic matrix)

1. 拉普拉斯矩阵

拉普拉斯矩阵是图论中用到的一种重要矩阵,给定一个有n个顶点的图 G=(V,E),其拉普拉斯矩阵被定义为 L = D-A,D其中为图的度矩阵(表示边数),A为图的邻接矩阵。

image image image image
邻接矩阵A 度矩阵D 拉普拉斯矩阵
  • 正则化的拉普拉斯矩阵(Symmetric normalized Laplacian):Lsym:=D12LD12=ID12AD12
  • 图中的拉普拉斯算子 = 图的拉普拉斯矩阵

本文作者:Rayinfos

本文链接:https://www.cnblogs.com/rayinfos/p/17590941.html

版权声明:本作品采用知识共享署名-非商业性使用-禁止演绎 2.5 中国大陆许可协议进行许可。

posted @   Rayinfos  阅读(554)  评论(0编辑  收藏  举报
点击右上角即可分享
微信分享提示
评论
收藏
关注
推荐
深色
回顶
收起
  1. 1 Singing Rib
  2. 2 Focus Rib
  3. 3 fossil Rib
  4. 4 damn 藤井風
  5. 5 きらり 藤井風
  6. 6 帰ろう 藤井風
Focus - Rib
00:00 / 00:00
An audio error has occurred, player will skip forward in 2 seconds.