神经元和激活函数

教材
https://www.bilibili.com/video/BV13b4y1177W

符号 含义
d 维数
b 偏置项

1.神经元模型

z=i=1dwixi+b=wTx+b

2.激活函数

性质

连续并可导(允许少数点上不可导)的非线性函数。

可导的激活函数可以直接利用数值优化的方法来学习网络参数。

激活函数及其导函数要尽可能的简单

有利于提高网络计算效率。

激活函数的导函数的值域要在一个合适的区间内

不能太大也不能太小,否则会影响训练的效率和稳定性。

单调递增

常见激活函数

S型函数

logistic函数

σ(x)=11+ex

tanh函数

tanh(x)=exexex+ex,[1,1]
tanh(x)=2σ(2x)1

性质:

都是饱和函数-两端导数接近于0,中间是类似线性的直线
Tanh函数是零中心化的,而logistic函数的输出恒大于0
使bias shift使
y=f(wσ(x))
yw=fσ(x),f,sigma(x),>0.<0,线,
1.0,2.σ(x)+b

斜坡函数

ReLU函数-修正的线性单元

ReLU(x)=max(0,x)

性质

计算上更加高效
生物学合理性
单侧抑制、宽兴奋边界
在一定程度上缓解梯度消失问题

死亡ReLU问题(Dying ReLU Problem)

函数的左边输出都是0,如果参数的Relu=0,那么梯度=0,没法更新参数了,一直处于不激活状态
解决方法,初始化的时候尽量小心,或者用LeakyRelu

Leaky Relu

LeakyRelu(x)={xx>0γxx0=max(0,x)+γmin(0,x)

ELU-近似的零中心化的非线性函数

ELU(x)={xx>0γ(ex1)x0=max(0,x)+min(0,γ(ex1))

softplus

Softplus(x)=log(1+ex)

复合函数

Swish函数:张一红自门控(Self-Gated)激活函数

swish(x)=xσ(βx),β,β,Relu,β=0线

高斯误差线性单元 (Gaussina Error Linear Unit,GELU)

和Swish函数比较类似
GELU(x)=xP(Xx)
P(Xx)N(μ,σ2)
μ,σμ=0,σ=1
没有解析函数,用其他函数近似
由于高斯分布的累积分布函数为S型函数,因此GELU可以用Tanh函数或Logistic函数来近似
GELU(x)0.5x(1+tanh(2π(x+0.044715x3)))
GELU(x)xσ(1.702x)

简单总结

激活函数 函数 导数
Logistic函数 f(x)=11+ex                                              f(x)=f(x)(1f(x))                                                       
Tanh函数 f(x)=exexex+ex f(x)=1f(x)2
ReLU函数 max(0,x) f(x)=I(x>0)
ELU函数 max(0,x)+min(0,γ(ex1)) f(x)=I(x>0)+I(x0)γex
SoftPlus f(x)=log(1+ex) f(x)=11+ex
posted @   筷点雪糕侠  阅读(380)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· DeepSeek 开源周回顾「GitHub 热点速览」
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布:重大改进与新特性概览!
· AI与.NET技术实操系列(二):开始使用ML.NET
· .NET10 - 预览版1新功能体验(一)
点击右上角即可分享
微信分享提示