linear regression
linear regression
LMS(最小均方差算法)
BGD vs SGD
当仅有一个样本时:
多样本时的更新算法:
BGD
Repeat until convergence:{
for every j:
}
SGD
Repeat until convergence:{
for i=1 to m {
for every j:
}
}
比较
method | 原理 | 性能 |
---|---|---|
BGD | 用所有样本依次更新每一个参数 | 慢、占内存 |
SGD | 每个样本都更新所有参数 | 快、常用 |
Newton's method
对于凸函数的代价函数最小化,除了SGD与BGD还有一个常用的算法:Newton's method
该方法的主要思想是每次学习的步长为(根据梯度得出),而非固定学习率
以LMS凸函数示例算法过程
当样本特征为多维的时候,也是一个向量,这时的更新方式为:
Newton's method方法的缺点就在于:
- 海森矩阵的逆不一定存在,就算存在计算量也比较大
- 当n比特别大的时候,该算法不一定比SGD快
the normal equation
含义
- f 本身代表一个关于矩阵的函数
- 表示f关于矩阵A的导数
- 其自变量为矩阵A
- 应变量为一个实数
- 是一个矩阵,矩阵的第i行j列的元素为f(A)关于的偏导数
normal equation的推导
- tr operator:
即矩阵A的迹为其对角线元素之和,为一个实数
2. 预备公式:
- 推导
cost function的概率解释
假设服从独立同分布的高斯分布
则
函数 | 表达式 | 含义 |
---|---|---|
概率函数 | $p(\vec | X;\theta)$ |
似然函数 | $L(\theta | X,\vec{y})$ |
求似然函数的最大值求概率函数的最大值,也求的最小值(可推导) | ||
但为什么要求概率函数的最大值呢? |
- 使每一个样本尽可能预测准确使每一个尽可能大
- 也可以从使每一个尽可能接近于0的角度来理解
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 单元测试从入门到精通
· 上周热点回顾(3.3-3.9)
· winform 绘制太阳,地球,月球 运作规律