机器学习之线性回归

回归模型定义：

　　1、回归分析是预测性建模技术，主要用来研究因变量（y_i）与自变量（x_i）之间的关系，通常被用来做预测分析、时间序列等。

　　2、公式：h(x_i) = wx_i + b = ∑_{j = 1}w_jx_j + b

　　3、实质为根据过去的经验学习中学习出这些权重系数w_j和偏置常数b各自取多少才能使得回归预测的准确度更高。

　　4、使用最小化损失函数进行求解。（最小均方误差）

　　5、使用梯度下降法对损失函数求偏导数。求出最小均方误差。

线性回归的sklearn实现

　　在scikit-learn中，线性回归模型对应的是liner_model.LinearRegression ，除此之外还有基于L1正则化的Lasso回归（Lasso Regression），基于L2正则化的线性回归（Ridge Regression），以及基于L1与L2正则化融合的Lasso CNet（ElasticNet Regression）中对应的linear_model.Lasso 、linear_model.Ridge 、linear_model.ElasticNet 。

普通线性回归：

from sklearn import linear_model
linear_model.LinearRegression(fit_intercept = True ,normalize = False ,n_jobs = -1)

参数：

　　fit_intercept：选择是否计算偏置常数b，默认为True ，表示计算

　　normalize：选择在拟合数据前是否进行归一化，默认为False ，表示不进行归一化

　　n_jobs：表示所有cpu核都调用

属性：

　　coef_：用于输出线性回归模型的权重向量w

　　intercept_：用于输出线性回归模型的偏置常数b

方法：

　　fit(X_train ,y_train)：进行模型训练

　　score(X_test ,y_test)：返回模型在测试集上的预测准确率

Lasso回归：

from sklearn import linear_model
linear_model.Lasso(alpha=1.0 ,
                    fit_intercept=True ,
                    normalize=False ,
                    precompute=False ,
　　　　　　　　　　　　max_iter=1000 ,
                    tol=0.0001 ,
                    warm_start=False ,
                    positive=False ,
                    selection='cyclic')

参数：

　　alpha：L1正则化项前面带的常数调节因子

　　fit_intercept：选择是否计算偏置常数b，默认为True ，表示计算

　　normalize：选择在拟合数据前是否进行归一化，默认为False ，表示不进行归一化

　　precompute：选择是否使用预先计算的Gram矩阵来加快计算，默认为False

　　max_iter：设定最大迭代次数，默认为1000次

　　tol：设定判断迭代收斂函数，默认为0.0001

　　warm_start：设定是否使用前一次训练的结果继续训练，默认为False，表示每次从头开始训练

　　positive：默认为False，如果为True，则强制所有权重系数都为正值

　　select：每轮迭代时选择哪个权重系数进行更新，默认为cycle ，表示从前往后依次选择；如果设定为random，则表示每次随机选择一个权重系数进行更新

属性：

　　coef_：用于输出线性回归模型的权重向量w

　　intercept_：用于输出线性回归模型的偏置常数b

　　n_iter_：用于输出实际迭代的次数

方法：

　　fit(X_train ,y_train)：进行模型训练

　　score(X_test ,y_test)：返回模型在测试集上的预测准确率

　　predict(X)：用训练好的模型来预测待预测数据集X，返回数据为预测集对应的预测结果y^ˆ

岭回归：

　　岭回归的实质是在基本线性回归模型基础上添加L2正则化，使得各个特征的权重w_j尽量衰减，从而达到特征变量选择的目的。

linear_model.Ridge(alpha=1.0 ,
                   fit_intercept=True ,
                   normalize=False ,
                   max_iter=None ,
                   tol=0.001 ,
                   solver='auto')

参数：

　　alpha：L1正则化项前面带的常数调节因子

　　fit_intercept：选择是否计算偏置常数b，默认为True ，表示计算

　　normalize：选择在拟合数据前是否进行归一化，默认为False ，表示不进行归一化

　　precompute：选择是否使用预先计算的Gram矩阵来加快计算，默认为False

　　max_iter：设定最大迭代次数，默认为1000次

　　tol：设定判断迭代收斂函数，默认为0.0001

　　solver：指定问题最优化问题的算法，默认为auto，表示自动选择。其他方法：

　　　　1、svd：使用奇异值分解来计算回归系数

　　　　2、cholesky：使用标准的scipy.linalg.solve函数来求解

　　　　3、sparse_cg：使用scipy.sparse.linalg.cg中的共轭梯度求解器求解

　　　　4、lsqr：使用专门的正则化最小二乘法scipy.sparse.ligalg.lsqr，速度是最快的

　　　　5、sag：使用随机平均梯度下降法求解

属性：

　　coef_：用于输出线性回归模型的权重向量w

　　intercept_：用于输出线性回归模型的偏置常数b

　　n_iter_：用于输出实际迭代的次数

方法：

　　fit(X_train ,y_train)：进行模型训练

　　score(X_test ,y_test)：返回模型在测试集上的预测准确率

　　predict(X)：用训练好的模型来预测待预测数据集X，返回数据为预测集对应的预测结果y^ˆ

ElasticNet回归：　

　　ElasticNet回归（弹性网络回归）是将L1和L2正则化进行融合，在基本的线性回归模型中加入混合正则化项。

linear_model.ElasticNet(alpha=1.0 ,
                        l1_ratio=0.5 ,
                        fit_intercept=True ,
                        normalize=False ,
                        precompute=False ,
                        max_iter=1000 ,
                        tol=0.0001 ,
                        warm_start=False ,
                        positive=False ,
                        selection='cyclic')

参数：

　　alpha：L1正则化项前面带的常数调节因子

　　l1_ratio：参数是β值，默认为0.5

　　fit_intercept：选择是否计算偏置常数b，默认为True ，表示计算

　　normalize：选择在拟合数据前是否进行归一化，默认为False ，表示不进行归一化

　　precompute：选择是否使用预先计算的Gram矩阵来加快计算，默认为False

　　max_iter：设定最大迭代次数，默认为1000次

　　tol：设定判断迭代收斂函数，默认为0.0001

　　warm_start：设定是否使用前一次训练的结果继续训练，默认为False，表示每次从头开始训练

　　positive：默认为False，如果为True，则强制所有权重系数都为正值

　　selection：每轮迭代时选择哪个权重系数进行更新，默认为cycle ，表示从前往后依次选择；如果设定为random，则表示每次随机选择一个权重系数进行更新

属性：

　　coef_：用于输出线性回归模型的权重向量w

　　intercept_：用于输出线性回归模型的偏置常数b

　　n_iter_：用于输出实际迭代的次数

方法：

　　fit(X_train ,y_train)：进行模型训练

　　score(X_test ,y_test)：返回模型在测试集上的预测准确率

　　predict(X)：用训练好的模型来预测待预测数据集X，返回数据为预测集对应的预测结果y^ˆ

案例之波士顿房价预测　　

#导入数据
from sklearn.datasets import load_boston
boston = load_boston()
X = boston.data
y = boston.target
#划分训练测试
from sklearn.model_selection import train_test_split
X_train ,X_test ,y_train ,y_test = train_test_split(X ,y ,train_size = 0.7)

普通线性回归模型：

from sklearn.linear_model import LinearRegression
lr = LinearRegression()
lr.fit(X_train ,y_train)
lr.score(X_test ,y_test)

lasso模型：

from sklearn.linear_model import Lasso
las = Lasso()
las.fit(X_train ,y_train)
las.score(X_test ,y_test)

岭回归模型：

from sklearn.linear_model import Ridge
rdg = ElasticNet()
rdg.fit(X_train ,y_train)
rdg.score(X_test ,y_test)

ElasticNet模型：

from sklearn.linear_model import ElasticNet
elt = ElasticNet()
elt.fit(X_train ,y_train)
elt.score(X_test ,y_test)

画图表现：

import matplotlib.pyplot as plt
fig = plt.figure(figsize=(20,3))
axes = fig.add_subplot(1,1,1)
line1 = axes.plot(range(len(y_test)) ,y_test ,'b' ,label = 'Actual')
elt_result = elt.predict(X_test)
line2 = axes.plot(range(len(elt_result)) ,elt_result ,'r--' ,label = 'Predict' ,linewidth = 2)
axes.grid()
fig.tight_layout()
plt.legend(handles = line1)
plt.title('House Price')
plt.show()

posted @ 2020-12-07 20:58 17孤独的牧羊人阅读(421) 评论(0) 收藏举报

刷新页面返回顶部

17孤独的牧羊人

机器学习之线性回归

回归模型定义：

线性回归的sklearn实现

普通线性回归：

参数：

属性：

方法：

Lasso回归：

参数：

属性：

方法：

岭回归：

参数：

属性：

方法：

ElasticNet回归：

参数：

属性：

方法：

案例之波士顿房价预测

普通线性回归模型：

lasso模型：

岭回归模型：

ElasticNet模型：

画图表现：

公告

ElasticNet回归：　

案例之波士顿房价预测