4.1 线性回归-线性模型

阅读目录

1 回归问题
2 什么是线性回归
3.线性回归的API
4.波士顿房价预测
- 4.1数据介绍
- 4.2代码
5.回归性能评估
6. 正规方程和梯度下降对比

回到顶部

1 回归问题

什么是回归问题
目标值 --- 连续型的数据

应用场景
房价预测
销售额度预测
金融：贷款额度预测、利用线性回归以及系数分析因子

回到顶部

2 什么是线性回归

2.1 定义

线性回归(Linear regression)是利用回归方程(函数)对一个或多个自变量(特征值)和因变量(目标值)之间关系进行建模的一种分析方式。

特点：只有一个自变量的情况称为单变量回归，大于一个自变量情况的叫做多元回归
就是找到一种函数关系特征值和目标值之间的关系

那么怎么理解呢？我们来看几个例子
期末成绩：0.7×考试成绩+0.3×平时成绩 y=0.7s1+0.3s2
房子价格 = 0.02×中心区域的距离 + 0.04×城市一氧化氮浓度 + (-0.12×自住房平均房价) + 0.254×城镇犯罪率

这个可以看成矩阵的乘法,
上面两个例子，我们看到特征值与目标值之间建立的一个关系，这个可以理解为回归方程。

2.2 线性回归的特征与目标的关系分析

线性回归当中的关系有两种，一种是线性关系，另一种是非线性关系。在这里我们只能画一个平面更好去理解，所以都用单个特征举例子。

线性关系:

(y=k*x+b)

(y=w1x1+w2x2+---+b)

注释：如果在单特征与目标值的关系呈直线关系，或者两个特征与目标值呈现平面的关系
更高维度的我们不用自己去想，记住这种关系即可

非线性关系:

注释：为什么会这样的关系呢？原因是什么？我们后面讲解过拟合欠拟合重点介绍
如果是非线性关系，那么回归方程可以理解为：w1x1+w2x2^2+w3x32

线性关系和线性模型，线性关系一定是线性模型，但是线性模型不一定是线性关系

2.3 线性回归的损失和优化原理（理解记忆）

就是为了求w1,w2,w3------wn和b：求模型参数

假设刚才的房子例子，真实的数据之间存在这样的关系
真实关系：真实房子价格 = 0.02×中心区域的距离 + 0.04×城市一氧化氮浓度 + (-0.12×自住房平均房价) + 0.254×城镇犯罪率

那么现在呢，我们随意指定一个关系（猜测）
随机指定关系：预测房子价格 = 0.25×中心区域的距离 + 0.14×城市一氧化氮浓度 + 0.42×自住房平均房价 + 0.34×城镇犯罪率

请问这样的话，会发生什么？真实结果与我们预测的结果之间是不是存在一定的误差呢？类似这样样子

那么存在这个误差，我们将这个误差给衡量出来
加入我们能够找到一种方法能够一直缩小这个误差直到这个误差为0，我们就可以找到这个真是关系

2.4 损失函数

总损失定义为：

y_i为第i个训练样本的真实值
h(x_i)为第i个训练样本特征值组合预测函数
又称最小二乘法

如何去减少这个损失，使我们预测的更加准确些？既然存在了这个损失，我们一直说机器学习有自动学习的功能，在线性回归这里更是能够体现。这里可以通过一些优化方法去优化（其实是数学当中的求导功能）回归的总损失！！！

2.5 优化算法

正规方程（天才-直接求解出来w）
梯度下降（勤奋努力的笨蛋，试错，优化）

2.5.1 正规方程

其实是矩阵求导

理解：X为特征值矩阵，y为目标值矩阵。直接求到最好的结果
缺点：当特征过多过复杂时，求解速度太慢并且得不到结果

2.5.2 梯度下降

(类似于一个递推公式)

理解：α为学习速率，需要手动指定（超参数），α旁边的整体表示方向(步长)
沿着这个函数下降的方向找，最后就能找到山谷的最低点，然后更新W值
使用：面对训练数据规模十分庞大的任务，能够找到较好的结果

我们通过两个图更好理解梯度下降的过程

就是让他沿着这个切线的方向走

回到顶部

3.线性回归的API

sklearn.linear_model.LinearRegression(fit_intercept=True)
通过正规方程优化
fit_intercept：是否计算偏置(只能过原点，一般为True)
LinearRegression.coef_：回归系数
LinearRegression.intercept_：偏置

sklearn.linear_model.SGDRegressor(loss="squared_loss", fit_intercept=True, learning_rate ='invscaling', eta0=0.01)
SGDRegressor类实现了随机梯度下降学习，它支持不同的loss函数和正则化惩罚项来拟合线性回归模型。
loss:损失类型
loss=”squared_loss”: 普通最小二乘法
fit_intercept：是否计算偏置
learning_rate : string, optional
学习率填充
'constant': eta = eta0(固定值)
'optimal': eta = 1.0 / (alpha * (t + t0)) [default]
'invscaling': eta = eta0 / pow(t, power_t)
power_t=0.25:存在父类当中
对于一个常数值的学习率来说，可以使用learning_rate=’constant’ ，并使用eta0来指定学习率。
SGDRegressor.coef_：回归系数
SGDRegressor.intercept_：偏置

回到顶部

4.波士顿房价预测

4.1数据介绍

给定的这些特征，是专家们得出的影响房价的结果属性。我们此阶段不需要自己去探究特征是否有用，只需要使用这些特征。到后面量化很多特征需要我们自己去寻找

流程：
1）获取数据集
2）划分数据集
3）特征工程：无量钢化-标准化
4）预估器的流程
fit()--->模型
coef_intercept_
5)模型评估

4.2代码

from sklearn.datasets import load_boston
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LinearRegression,SGDRegressor
def linear1():
    """
    正规方程的优化方法对波士顿房价进行预测
    :return:
    """

    #1)获取数据
    bosten = load_boston()
    #2)划分数据集
    x_train,x_test,y_train,y_test=train_test_split(bosten.data,bosten.target,random_state=22)
    #3)标准化
    transfer=StandardScaler()
    x_train=transfer.fit_transform(x_train)
    x_test=transfer.transform(x_test)
    #4）预估器
    estimator=LinearRegression()
    estimator.fit(x_train,y_train)
    #5）得出模型
    print("正规方程-权重系数为：\n",estimator.coef_)
    print("正规方程-偏置为:\n",estimator.intercept_)
    #6）模型评估

    return None


def linear2():
    """
    正规方程的优化方法对波士顿房价进行预测
    :return:
    """

    # 1)获取数据
    bosten = load_boston()
    print("特征数量:\n",bosten.data.shape)
    # 2)划分数据集
    x_train, x_test, y_train, y_test = train_test_split(bosten.data, bosten.target, random_state=22)
    # 3)标准化
    transfer = StandardScaler()
    x_train = transfer.fit_transform(x_train)
    x_test = transfer.transform(x_test)
    # 4）预估器
    estimator = SGDRegressor()
    estimator.fit(x_train, y_train)
    # 5）得出模型
    print("梯度下降-权重系数为：\n", estimator.coef_)
    print("梯度下降-偏置为:\n", estimator.intercept_)
    # 6）模型评估

    return None
if __name__== "__main__":
    #代码1：正规方程
    linear1()
    #代码2：梯度下降
    linear2()

回到顶部

5.回归性能评估

均方误差(Mean Squared Error)MSE)评价机制：

注：y^i为预测值，¯y为真实值
sklearn.metrics.mean_squared_error(y_true, y_pred)
均方误差回归损失
y_true:真实值
y_pred:预测值
return:浮点数结果

# 6）模型评估
    y_predict = estimator.predict(x_test)
    print("预测房价:\n", y_predict)
    error = mean_squared_error(y_test, y_predict)
    print("梯度下降-均方误差：\n", error)

这里面是需要调参的：

我们也可以尝试去修改学习率
sgd = SGDRegressor(learning_rate='constant', eta0=0.001)
此时我们可以通过调参数，找到学习率效果更好的值。

from sklearn.datasets import load_boston
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LinearRegression,SGDRegressor
from sklearn.metrics import mean_squared_error
def linear1():
    """
    正规方程的优化方法对波士顿房价进行预测
    :return:
    """

    #1)获取数据
    bosten = load_boston()
    #2)划分数据集
    x_train,x_test,y_train,y_test=train_test_split(bosten.data,bosten.target,random_state=22)
    #3)标准化
    transfer=StandardScaler()
    x_train=transfer.fit_transform(x_train)
    x_test=transfer.transform(x_test)
    #4）预估器
    estimator=LinearRegression()
    estimator.fit(x_train,y_train)
    #5）得出模型
    print("正规方程-权重系数为：\n",estimator.coef_)
    print("正规方程-偏置为:\n",estimator.intercept_)
    #6）模型评估
    y_predict=estimator.predict(x_test)
    print("预测房价:\n",y_predict)
    error =mean_squared_error(y_test,y_predict)
    print("正规方程-均方误差：\n",error)
    return None


def linear2():
    """
    正规方程的优化方法对波士顿房价进行预测
    :return:
    """

    # 1)获取数据
    bosten = load_boston()
    print("特征数量:\n",bosten.data.shape)
    # 2)划分数据集
    x_train, x_test, y_train, y_test = train_test_split(bosten.data, bosten.target, random_state=22)
    # 3)标准化
    transfer = StandardScaler()
    x_train = transfer.fit_transform(x_train)
    x_test = transfer.transform(x_test)
    # 4）预估器
    estimator = SGDRegressor(learning_rate="constant",eta0=0.01,max_iter=10000)#调参max_iter为迭代次数
    estimator.fit(x_train, y_train)
    # 5）得出模型
    print("梯度下降-权重系数为：\n", estimator.coef_)
    print("梯度下降-偏置为:\n", estimator.intercept_)
    # 6）模型评估
    y_predict = estimator.predict(x_test)
    print("预测房价:\n", y_predict)
    error = mean_squared_error(y_test, y_predict)
    print("梯度下降-均方误差：\n", error)

    return None
if __name__== "__main__":
    #代码1：正规方程
    linear1()
    #代码2：梯度下降
    linear2()

回到顶部

6. 正规方程和梯度下降对比

文字对比

梯度下降	正规方程
需要选择学习率	不需要
需要迭代求解	一次运算得出
特征数量较大可以使用	需要计算方程，时间复杂度高O(n3)

选择：
小规模数据：

LinearRegression(不能解决拟合问题)
岭回归

大规模数据：

SGDRegressor

拓展-关于优化方法GD、SGD、SAG
1 GD
梯度下降(Gradient Descent)，原始的梯度下降法需要计算所有样本的值才能够得出梯度，计算量大，所以后面才有会一系列的改进。

2 SGD
随机梯度下降(Stochastic gradient descent)是一个优化方法。它在一次迭代时只考虑一个训练样本。

SGD的优点是：

高效
容易实现

SGD的缺点是：

SGD需要许多超参数：比如正则项参数、迭代数。
SGD对于特征标准化是敏感的。
3 SAG
随机平均梯度法(Stochasitc Average Gradient)，由于收敛的速度太慢，有人提出SAG等基于梯度下降的算法

Scikit-learn：SGDRegressor、岭回归、逻辑回归等当中都会有SAG优化

posted @ 2023-06-11 19:23 lipu123 阅读(61) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· 4.3 线性回归的改进-岭回归

· pytorch-线性回归模型（李沐）

· 机器学习中的线性回归（Python）

· 什么是机器学习回归算法？【线性回归、正规方程、梯度下降、正则化、欠拟合和过拟合、岭回归】

· 精通 NumPy 数值分析：1~5

阅读排行：
· TypeScript + Deepseek 打造卜卦网站：技术与玄学的结合
· Manus的开源复刻OpenManus初探
· AI 智能体引爆开源社区「GitHub 热点速览」
· 三行代码完成国际化适配，妙~啊~
· .NET Core 中如何实现缓存的预热？

公告

昵称： lipu123
园龄： 5年2个月
粉丝： 9
关注： 3

+加关注

2025年3月

日

一

二

三

四

五

六

lipu123

4.1 线性回归-线性模型

阅读目录

1 回归问题

2 什么是线性回归

2.1 定义

2.2 线性回归的特征与目标的关系分析

2.3 线性回归的损失和优化原理（理解记忆）

2.4 损失函数

2.5 优化算法

2.5.1 正规方程

2.5.2 梯度下降

3.线性回归的API

4.波士顿房价预测

4.1数据介绍

4.2代码

5.回归性能评估

6. 正规方程和梯度下降对比

公告

搜索

常用链接

积分与排名

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论