关闭页面特效

感知机回归

1|0概述


感知机分类一文中提到了感知机模型在分类问题上的应用,如果,我们需要将其使用于回归问题呢,应该怎样处理呢?

其实只要修改算法的最后一步,
sign(x)={+1,x01,x<0(1.1) sign(x)=\left\{\begin{matrix}+1 &, x\geq 0\\ -1 &, x< 0\end{matrix}\right.\tag{1.1}
函数即可。经过sign函数的处理,只可能是两个值,要么1,要么-1,。如果将最后的sign函数改成该函数:
f(x)=x(1.2) f(x)=x\tag{1.2}
那么,最后的输出值就是一个实数而不是1或-1中的一个值了,这样就达到了回归的目的。


2|0损失函数


在实际问题中,损失函数是根据不同的问题进行设计的,因此,单单改变了激活函数还不够,还需要改变损失函数,通常情况下,回归问题使用的损失函数为:
e=12(yy^)2(2.1) e=\frac{1}{2}(y-\hat{y})^2\tag{2.1}
在公式(2.1)中,y y表示训练样本里面的标记,也就是实际值;y^ \hat{y}表示模型计算的出来的预测值。e e叫做单个样本的误差。至于为什么前面要乘1/2 1/2,是为了后面计算方便。

根据公式(2.1),在n n个样本的数据集中,可以将总误差E E记为:
E=12i=1n(y(i)y^(i))2(2.2) \begin{aligned}E&=\frac{1}{2}\sum_{i=1}^{n}(y^{(i)}-\hat{y}^{(i)})^2\end{aligned}\tag{2.2}
在公式(2.2)中,y(i) y^{(i)}表示第i i个样本的真实值,y^(i) \hat{y}^{(i)}表示第i i个样本的预测值。且
y^(i)=h(x(i))=wTx(i)(2.3) \begin{aligned}\hat{y}^{(i)}&=h(\mathrm{x}^{(i)})\\&=\mathrm{w}^T\mathrm{x^{(i)}}\end{aligned}\tag{2.3}
我们的目的,是训练模型:求取到合适的w \mathrm{w},使(2.2)取得最小值。


3|0求参数的方法


3|13.1 极大似然估计


该方法之前有提到过,大致思路为让损失函数对参数求导并令其为0,求出参数的值。具体的可以参考线性回归模型 ,但该方法仅适用于激活函数为f(x)=x f(x)=x的情况。

3|23.2 梯度下降算法


该方法是计算机通过强大的计算能力,一步步把极值点“试”出来,大致过程如下:
在这里插入图片描述
还记的感知机学习的步骤吗?主要是解决两个问题:

  1. 往哪走?
  2. 走多远?

首先随机选择一个点x x,在之后的过程中每次修改该点,经过数次迭代之后最终到达函数的最小值点。根据梯度的性质:梯度的反方向是函数值下降最快的方向,每次沿着梯度相反的方向修改x x的值,最后是有可能走到极小值附近的。该公式可以表示为:
xnew=xoldηf(x)(3.1) \mathrm{x}_{new}=\mathrm{x}_{old}-\eta\nabla{f(x)}\tag{3.1}
将其应用于我们的目标函数的权值中时,则有
wnew=woldηE(w)(3.2) \begin{aligned}\mathrm{w}_{new}=&\mathrm{w}_{old}-\eta\nabla{E(\mathrm{w})}\\\tag{3.2}\end{aligned}
E(w) \nabla{E(\mathrm{w})}则有:
E(w)=wE(w)=w12i=1n(y(i)y^(i))2=12wi=1n(y(i)22y^(i)y(i)+y^(i)2)=12wi=1n(2y^(i)y(i)+y^(i)2)=12i=1n[2y(i)y^(i)w+y^(i)2w]=12i=1n[2y(i)wTx(i)w+2y^(i)wTx(i)w]=12i=1n[2y(i)x(i)+2y^(i)x(i)]=i=1n(y(i)y^(i))x(3.3) \begin{aligned}\nabla{E(\mathrm{w})}&=\frac{\partial}{\partial\mathrm{w}}E(\mathrm{w})\\&=\frac{\partial}{\partial\mathrm{w}}\frac{1}{2}\sum_{i=1}^{n}(y^{(i)}-\hat{y}^{(i)})^2\\&=\frac{1}{2}\frac{\partial}{\partial\mathrm{w}}\sum_{i=1}^{n}(y^{(i)2}-2\hat{y}^{(i)}y^{(i)}+\hat{y}^{(i)2})\\&=\frac{1}{2}\frac{\partial}{\partial\mathrm{w}}\sum_{i=1}^{n}(-2\hat{y}^{(i)}y^{(i)}+\hat{y}^{(i)2})\\&=\frac{1}{2}\sum_{i=1}^{n}[-2y^{(i)}\frac{\partial \hat{y}^{(i)}}{\partial\mathrm{w}}+\frac{\partial \hat{y}^{(i)2}}{\partial \mathrm{w}}]\\&=\frac{1}{2}\sum_{i=1}^{n}[-2y^{(i)}\frac{\partial \mathrm{w}^T\mathrm{x^{(i)}}}{\partial\mathrm{w}}+2\hat{y}^{(i)}\frac{\partial \mathrm{w}^T\mathrm{x^{(i)}}}{\partial \mathrm{w}}]\\&=\frac{1}{2}\sum_{i=1}^{n}[-2y^{(i)}\mathrm{x^{(i)}}+2\hat{y}^{(i)}\mathrm{x^{(i)}}]\\&=-\sum_{i=1}^{n}(y^{(i)}-\hat{y}^{(i)})\mathrm{x}\tag{3.3}\end{aligned}
所以,梯度更新公式为:
wnew=wold+ηi=1n(y(i)y^(i))x(i)(3.4) \mathrm{w}_{new}=\mathrm{w}_{old}+\eta\sum_{i=1}^{n}(y^{(i)}-\hat{y}^{(i)})\mathrm{x}^{(i)}\tag{3.4}
若有M+1个特征,(常数项也包括在内),则w,x \mathrm{w},\mathrm{x}是M+1维列向量,所以(3.4)可以写成
[w0w1w2...wm]new=[w0w1w2...wm]old+ηi=1n(y(i)y^(i))[1x1(i)x2(i)...xm(i)] \begin{bmatrix}w_0 \\w_1 \\w_2 \\... \\w_m \\\end{bmatrix}_{new}=\begin{bmatrix}w_0 \\w_1 \\w_2 \\... \\w_m \\\end{bmatrix}_{old}+\eta\sum_{i=1}^{n}(y^{(i)}-\hat{y}^{(i)})\begin{bmatrix}1 \\x_1^{(i)} \\x_2^{(i)} \\... \\x_m^{(i)} \\\end{bmatrix}

4|0与分类器的比较


算法 分类 回归
模型 sign(x)={+1,x01,x<0 sign(x)=\left\{\begin{matrix}+1 &, x\geq 0\\ -1 &, x< 0\end{matrix}\right. f(x)=x f(x)=x
训练规则 ww+η(yy^)x \mathrm{w}\gets\mathrm{w}+\eta(y-\hat{y})\mathrm{x} ww+η(yy^)x \mathrm{w}\gets\mathrm{w}+\eta(y-\hat{y})\mathrm{x}

5|05.代码实现


代码在这里, 翻我牌子

5|1制作数据


import numpy as np from sklearn.model_selection import train_test_split def load_data(n): X = np.arange(0, 10, 0.1) y = X + (np.random.rand(len(X)) - 0.5) * n X_train, X_test, y_train, y_test = train_test_split(X, y) return X_train, X_test, y_train, y_test def show_data(): import matplotlib.pyplot as plt print(X.shape) plt.scatter(X, y) plt.plot(X, X) plt.show()

5|2主代码


def SquareLoss(self, y, y_pred): return np.sum((y - y_pred)**2) / len(y)**2 def fit(self, X, y): w = np.random.rand(2) # b, a, 构造y = a*x + b for itr in range(self.max_itr): # print(len(X)**2) temp = 0 for d in range(len(X)): x_ = np.array([1, X[d]]) y_ = y[d] temp += (y_ - np.dot(w, x_)) * x_ # print(temp) w += self.lr_rate * temp # print(w) self.w = w y_pred = self.predict(X) if self.SquareLoss(y, y_pred) < self.eps: print("iterations:", itr+1) break print("Train Finished !") return def predict(self, X): return np.dot(X, self.w[1]) + self.w[0] def score(self, X, y): y_pred = self.predict(X) return self.SquareLoss(y, y_pred) y_pred = rgs.predict(X_test) print("predict: ", y_pred) plt.scatter(X_train, y_train, label="train") xx = np.arange(X_train.min(), X_train.max(), 0.01) plt.plot(xx, rgs.w[1]*xx + rgs.w[0], 'r') plt.scatter(X_test, y_pred, label='predict') plt.legend() plt.show()
</div>

__EOF__

作  者Hichens
出  处https://www.cnblogs.com/hichens/p/12340797.html
关于博主:莫得感情的浅度学习机器人
版权声明:@Hichens
声援博主:如果您觉得文章对您有帮助,可以点击文章右下角推荐一下。您的鼓励是博主的最大动力!

posted @   hichens  阅读(178)  评论(0编辑  收藏  举报
编辑推荐:
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探
阅读排行:
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· winform 绘制太阳,地球,月球 运作规律
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 上周热点回顾(3.3-3.9)
· 超详细:普通电脑也行Windows部署deepseek R1训练数据并当服务器共享给他人
点击右上角即可分享
微信分享提示