特征缩放和标准化 设置学习率大小 正则方程
标准化到相近的范围即可
这是因为θ在小范围内下降很快,在大范围内下降很慢,所以当变量非常不均匀时,θ会低效率地振荡到最优。(特征都在一个相近的范围,这样梯度下降法就能更快的收敛)
用X轴上的迭代次数绘制一个图。现在绘制成本函数,J(θ)在梯度下降迭代次数上。如果J(θ)增大,那么可能需要减小α。
总结一下:
如果α太小:缓慢收敛。
如果α太大:可能不会在每次迭代时减少,因此可能不会收敛。
正规方程
梯度下降和正则方程的区别
O(n^3):假设X:n*n,当n超过10^4时就不能用正规方程了
使用正则方程不需要归一化特征变量
解决上述问题的方法包括删除与另一个特征线性相关的特征,或者在特征太多时删除一个或多个特征。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· go语言实现终端里的倒计时
· 如何编写易于单元测试的代码
· 10年+ .NET Coder 心语,封装的思维:从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热?
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· 分享一个免费、快速、无限量使用的满血 DeepSeek R1 模型,支持深度思考和联网搜索!
· 基于 Docker 搭建 FRP 内网穿透开源项目(很简单哒)
· ollama系列01:轻松3步本地部署deepseek,普通电脑可用
· 25岁的心里话
· 按钮权限的设计及实现