【机器学习】相关分析与回归分析基础

基础知识

变量定义

在研究变量关系的过程中，通常对于被研究的变量，称为因变量，也称为被解释变量，一般用Y表示。其它用来说明或解释因变量变化的变量称为自变量，也称为解释变量，用X表示。自变量可以有一个，也可以有多个。例如，如果我们想预测销售收入，则销售收入就是我们这次研究的因变量，如果我们是通过广告费的支出来预测销售收入，则广告费支出就是自变量。如果预测销售收入时，还要考虑销售价格或销售人员的数量的影响，那么，销售价格或销售人员的数量这两个因素也都称为自变量，即有两个自变量。

变量之间的关系

在统计学中，依据变量与变量之间的联系或依存的类型不同，一般将变量之间的关系划分为函数关系和相关关系两种。

1.相关关系
所谓相关关系，是指变量的数值之间存在着非严格的依存关系。就是说，当一个变量或几个变量取定一个数值时，另一个对应变量的数值是不确定的。但是，该变量的数值却是随着前述变量的所取数值而发生一定的变化规律。例如，人的身高与体重之间的关系就属于相关关系。就全社会而言，对于具有同样身高的人，体重的数值未必相同。也就是说，同样的身高数值对应的体重数值是不确定的。但是体重数值却是随着“身高越高，体重越重”这个一般的规律而变化。因此两者是一种相关关系。当给定一个房屋面积时，房屋的出租价格是不确定的。但是，出租价格却是依据房屋面积的大小而变化。

如果变量之间存在相关关系，可能包含以下几种情况：
1、变量之间存在着因果关系。例如，产量与单位成本的相关关系就是一种因果关系，其中产量变动在前是原因，单位成本的变动在后是结果。粮食的产量与施肥量的关系也是一种因果关系，施肥量是原因，产量是结果。
2、变量之间存在着相互依存的关系。例如，一个城市的货运量与该城市的国内生产总值具有相关关系，但在货运量与国内生产总值的变动中，很难确定哪一个是原因哪一个是结果，两个变量之间是相互依存的关系。
3、变量之间只是存在着数值的统计关系，或者说是虚假关系。例如，有人将某段时间的香烟销售量与人口的期望寿命数据进行计算，发现两个变量之间具有正的相关关系：香烟销售量越来越多，人口的期望寿命也越来越高。这种相关关系就是典型的虚假相关。首先要定性分析，只有在科学理论上能够解释变量之间确实有联系，才能认为变量的数值之间存在着相关关系。否则，不能使用这种虚假的相关关系作任何的推测或预测。

在客观现实中，许多现象之间都存在着某种相互联系或相互依存的关系。例如，降雨量与云层厚度之间的关系，居民收入增长率与物价指数的关系，人的身高和体重的关系，汽车行使速度与行使里程之间的关系，圆的面积与圆的半径之间的关系等。现象与现象之间的关系如果使用数量来描述，就形成变量与变量之间的关系。2.

2.函数关系
所谓函数关系，是指各变量之间的数值依一定的函数形式所形成的一一对应关系。也就是说，当一个变量或几个变量取一定的值时，另一个变量有一个确定的值与之相对应。例如，当给出圆的半径r时，就可以根据S=πr2，计算出圆面积S；反之，给定圆的面积S，同样根据S=πr2，可以计算出圆的半径r。因此说，圆面积S与圆半径r是函数关系。类似地，当某种商品的销售价格保持不变时，销售额与销售量也可以看作是函数关系。给定销售量就可以知道销售额，有了销售额就可以知道销售量。变量之间的函数关系在自然科学中是普遍存在的。在数学、物理学和化学中有许多严格的定理和公式，这些定理和公式揭示了变量之间存在的相互关系，冥王星的发现就是万有引力定律的最好应用。

在分析多组数据之间的关系时，首先需要通过相关分析确定数据之间的相关关系，然后再通过回归分析确定数据之间的函数关系。这就引出了相关分析与回归分析。

回归分析

回归分析（regression analysis)通过建立模型来研究变量之间相互关系的密切程度、结构状态及进行模型预测的工具，可以确定两种或两种以上变量间相互依赖的定量关系的一种方法，在机器学习中是重要的一个模块，在sklearn机器学习库中有广泛的算法实现，如OLS，脊回归等，回归分析的研究范围：

回归分析分类

按变量的多少划分：
如果只研究两个变量之间的相关关系则称为单相关，对这两个变量所做的回归分析叫一元回归，也称为简单回归。其中一个变量是因变量，另一个变量是自变量。当所研究的是一个变量与两个或两个以上变量的相关关系时，称为复相关。对这些变量所作的回归分析就称为多元回归，其中一个变量是因变量，其它变量是自变量。

按相关与回归的形式划分：
当变量之间的关系可以通过线性方程表达时，它们的关系就是线性相关，对此进行的回归分析称为线性回归。反之，称为非线性相关，相应的回归分析称为非线性回归。在只有两个变量时，线性关系体现为直线关系，非线性关系体现为曲线关系。通过散点图可以直接观察变量之间是否具有线性关系。

多重线性回归：

如果回归分析中包括两个或两个以上的自变量，且自变量之间存在线性相关性，此时称为多重线性回归分析。

如果我们要预测的数据模型中，自变量之间存在多重共线性时，那么再使用最小二乘法进行权重参数求解不会准确，消除多重共线性的参数改进估计方法主要有岭回归和主成分回归。

注意：线性回归的入手一般会根据最小二乘法，但是如果结果不好的话，要考虑多变量之间是否存在多重线性相关性。

常见的回归模型：

参考：

-零