linear regression

linear regression

LMS(最小均方差算法)

BGD vs SGD

minJ(θ)=12i=1m(hθ(x(i))y(i))2

当仅有一个样本时:

θjJ(θ)=(hθ(x)y)xj

多样本时的更新算法:

BGD

Repeat until convergence:{
for every j:

θj=θjαi=1m(hθ(x(i))y(i))xj(i)

}

SGD

Repeat until convergence:{
for i=1 to m {
for every j:

θj=θjαi=1m(hθ(x(i))y(i))xj(i)

  }
}

比较
method 原理 性能
BGD 用所有样本依次更新每一个参数 慢、占内存
SGD 每个样本都更新所有参数 快、常用

Newton's method

对于凸函数的代价函数最小化,除了SGD与BGD还有一个常用的算法:Newton's method
该方法的主要思想是每次学习的步长为Δ(根据梯度得出),而非固定学习率α
以LMS凸函数示例算法过程
newthon method|center

当样本特征为多维的时候,θ也是一个向量,这时的更新方式为:

θ=θH1θl(θ)

Hij=2l(θ)θiθj

Newton's method方法的缺点就在于:

  • 海森矩阵的逆不一定存在,就算存在计算量也比较大
  • 当n比特别大的时候,该算法不一定比SGD快

the normal equation

Af(A)含义

  1. f 本身代表一个关于矩阵的函数
    • 表示f关于矩阵A的导数
    • 其自变量为矩阵A
    • 应变量为一个实数
  2. Af(A)是一个矩阵,矩阵的第i行j列的元素为f(A)关于Aij的偏导数

normal equation的推导

  1. tr operator:

trA=i=1nAii

即矩阵A的迹为其对角线元素之和,为一个实数
2. 预备公式:

trA=trAT

traA=atrA

ATtrABATC=BTATCT+BATC

  1. 推导

θJ(θ)=0θ=(XTX)1Xy

cost function的概率解释

假设ϵ(i)=y(i)θTx(i)服从独立同分布的高斯分布

p(y|X;θ)=L(θ|X,y)=L(θ)=i=1m12πδe(y(i)θTx(i))22δ2

函数 表达式 含义
概率函数 $p(\vec X;\theta)$
似然函数 $L(\theta X,\vec{y})$
求似然函数的最大值求概率函数的最大值,也12i=1m(yiθTx(i))2的最小值(可推导)
但为什么要求概率函数的最大值呢?
  • 使每一个样本尽可能预测准确使每一个p(y(i)|x(i);θ)尽可能大
  • 也可以从使每一个ϵ(i)尽可能接近于0的角度来理解
posted @   fariver  阅读(348)  评论(0编辑  收藏  举报
编辑推荐:
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探
阅读排行:
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 单元测试从入门到精通
· 上周热点回顾(3.3-3.9)
· winform 绘制太阳,地球,月球 运作规律
点击右上角即可分享
微信分享提示