神经网络训练的优化操作

1. 输入特征值x的归一化。

如果有(x1,x2),x1的取值范围是[0~1],而x2是[0~2000],那么会造成损失函数J(θ)的形状:

(J(θ)的等高线图)

在求J(θ)最小值时,对θ1和θ2反向传播,修改值时,往往使得修改的方向震荡。

改进办法是,将x1和x2的取值范围,规定在差不多的范围内,通常在[0,1]区间,得到J(θ)等高线图:

办法:

xi = (xi - avg(x)) / (xmax - xmin)

2. 损失函数正规化

在实际中,如果有x1……xn 多个特征,有的x= xixj 或者 xm = xi这样的特征组合而成的新特征,有用,但是不是十分重要的话(要视具体问题而定),如果对应的θ偏大的话,往往会产生过拟合问题。

例如:

(欠拟合,刚好拟合,过拟合)

 

对于损失函数,如果J(θ) = 1 / 2n ∑(hθ(x) - y ) + 1000 * θi  + 1000 * θj   (假设θi和θj 是无关紧要的特征的权值)

那么,根据反向传播 θi = θi - a * d(J(θ)) / dθi , d(J(θ)) / dθi  为一个大数,也就是θi 被"惩罚"得特别厉害。

正规的方程应该为:

J(θ) = 1 / 2n * [ ∑(hθ(x) - y )2 + λ ∑ θ2 ]

θi = θi(1 - a*λ/n) + a/m * (∑(hθ(x) - y )) *x(当hθ(x) = θTX)

原来是:θi = θi+ a/m * (∑(hθ(x) - y )) *xi

1 - a*λ/n 接近于1。也就是说,每次更新,都会先对原来的θ进行缩小

注意,如果λ过大,会导致每个θ过小,最终拟合出一条水平直线出来。

 

posted on   耀礼士多德  阅读(217)  评论(0编辑  收藏  举报

(评论功能已被禁用)
编辑推荐:
· AI与.NET技术实操系列:基于图像分类模型对图像进行分类
· go语言实现终端里的倒计时
· 如何编写易于单元测试的代码
· 10年+ .NET Coder 心语,封装的思维:从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热?
阅读排行:
· 分享一个免费、快速、无限量使用的满血 DeepSeek R1 模型,支持深度思考和联网搜索!
· 基于 Docker 搭建 FRP 内网穿透开源项目(很简单哒)
· ollama系列01:轻松3步本地部署deepseek,普通电脑可用
· 25岁的心里话
· 按钮权限的设计及实现
历史上的今天:
2018-05-04 MIT线性代数:7.主变量,特解,求解AX=0
< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

统计

点击右上角即可分享
微信分享提示