机器学习笔记(1): 梯度下降算法

本文作为我看过 # 吴恩达机器学习系列课程 的产物,并不适用于一无所知的学习者。

在机器学习中,有三个很重要的函数:

  • hθ(x) 表示预测数据
  • J(θ) 代价函数,表示预测和实际的差距,J(θ)0,且 J(θ) 值越小,差距越小。
  • θJ(θ) 也就是其偏导数,用于梯度下降算法的拟合。

由于本人没有系统的学习偏导数,为了方便表示,这里认为 θ=θJ(θ) 是一个与 θ 同样大小的向量,其中 θi 表示在第 i 个维度平面内的斜率。故 θJ(θ) 实际上就表示的是 J 函数图像在 θ 处的斜率。

一个优秀的代价函数是梯度下降算法的核心。
一般来说,需要具有如下特性:

  • 不存在局部最小值 %% 也就是 θ(J(θ)=0α(J(θ)>J(α)) %%
  • 没有平坦的部分,也就是没有 J(θ)=0 但是 J(θ) 不是最小值的地方。

梯度下降算法的目标很简单:

minJ(θ)

其过程也很简单:

θ=θαθJ(θ)

其中 α 是学习速率。如果 α 过小,则时间成本过大;如果 α 过大,则容易跳过最优解。

如何理解 跳过 ?梯度下降算法的过程,实际上就是沿着斜率不断向下跳的过程。而学习速率决定了向下跳的距离,所以说如果 α 过大,则容易跳过最优解。

线性回归

线性回归,即使用一次函数对于数据进行拟合:

hθ(xi)=θ0+θ1xi

我们一般使用的是平方损失函数:

J(θ)=12mi=1m(hθ(xi)yi)2

其中 xi 表示输入特征,而 yi 表示真实值。

我们不妨将 xi 简单修改,变成 (1,xi),记为 Xi,则 X 是一个 2×m 的矩阵:

X=(1x01x11xm1)

那么自然,J(θ)=12mones(1,m)((Xθy)(Xθy))

其中 ones(n,m) 表示一个 n×m 的全为 1 的矩阵。

原本计算式:

θj=θjα1mi=1mXi,j(Xiθy)

变成矩阵的写法:

θ=θαmXT(X×θy)

非常的优美。

简单代码

利用 Octave 写的。

% X 是输入数据,y 是目标数据数据

% 标准化输入
[X mu sigma] = featureNormalize(X);

% 新增一列常数 1
X = [ones(m, 1) X];

% 设置训练参数
alpha = 0.01;
num_iters = 400;

% 开始训练
theta = zeros(3, 1);
theta = gradientDescentMulti(X, y, theta, alpha, num_iters);

% 预测函数,这里的 x 是没有常数项的
function [predict] = multiPredict(x, theta, mu, sigma)
	normData = ([1 x] - [0 sigma]) ./ [1 mu];
	predict = normData * theta;
end

一些函数

% 标准化每一列
function [X_norm, mu, sigma] = featureNormalize(X)
X_norm = X;
mu = zeros(1, size(X, 2));
sigma = zeros(1, size(X, 2));

for i = 1:length(X(1, :))
	V = X_norm(:, i);
	sigma(i) = mean(V);
	mu(i) = std(V) * std(V);
	V = (V - sigma(i)) / mu(i);
	X_norm(:, i) = V;
end

end

% 开始梯度下降
function theta = gradientDescentMulti(X, y, theta, alpha, num_iters)
m = length(y); % 样本量

for iter = 1:num_iters
	theta = theta - alpha / m * (X' * (X * theta - y));
end

end

% 计算代价函数 J(\theta)
function J = computeCostMulti(X, y, theta)
m = length(y); % 样本量
diffCost = X * theta - y;
J = sum(diffCost .* diffCost) / 2 / m;

end

这么一看核心代码也就一点点……但是不得不说确实高级。


正则化参数

是一种防止“过拟合出现”的重要方式。

一般来说,为了限制参数的大小,我们会小小修改损失函数:

J(θ)=12mi=1m(hθ(xi)yi)2+λi=1cθi2

那么其偏导数:

θJ(θ)=1m(XT×(Xθy)+λθ)

自然参数学习部分变成了:

θ=mλmθαmXT(X×θy)

不过值得注意的是,一般来说,我们的 θ 是增广的矩阵,所以需要注意常数项不应该被减少!

也就是说设 θ 表示 θ 常数项被设为 0,那么:

J(θ)=1m(ylogy^+(1y)log(1y^))+λ2mθTθ

J(θ)θ=1m(XT(Xθy))+λmθ

posted @   jeefy  阅读(86)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· DeepSeek 开源周回顾「GitHub 热点速览」
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布:重大改进与新特性概览!
· AI与.NET技术实操系列(二):开始使用ML.NET
· 单线程的Redis速度为什么快?
历史上的今天:
2023-06-02 [ROI 2018] Innophone 题解
点击右上角即可分享
微信分享提示