再谈线性回归函数分析,从概率论与数理统计角度看线性回归参数估计
1. 随机变量的数字特征
0x1:为什么我们需要统计随机变量的数字特征
随机变量的分布函数(或概率函数,或密度函数)已经非常全面了,精确地描述了这个随机变量取值的统计规律性,那为什么我们还需要研究随机变量的数字特征呢?这个小节我们来讨论一下这个话题。
1. 实际问题背后概率分布函数的复杂性
在很多实际问题中(特别是一些具体的非物理的问题域),从实际问题场景中采样得到的样本集,一般时候都不会100%符合一个经典概率分布(例如泊松分布、高斯分布等)。
例如下图中,黑点表示我们目前已知的样本点分布,蓝色曲线表示某个非线性函数公式,刚好能够完美拟合这个样本集:
虽然上图表面看好像已经拟合成功了,但是理论上来说,我们是无法写出准确的概率分布函数的,主要原因有以下几个方面:
采样不充分问题:一方面是由于采样不充分,根据随机过程抽样或者蒙特卡洛抽样得到的样本点很可能只是真实概率概率分布样本空间的一个有限不均衡子集。采样不充分是非常常见的,最极端的例子就是天文学和宇宙学,例如2019年很著名的黑洞照片,其实是科学家们基于非常少的光子,通过数学建模的方式而“还原模拟”出来的。关于大数定理的其他讨论,可以参阅另一篇文章。
- 模型搜索空间大:另一方面是由于其样本分布的非线性,而非线性分布的形式理论上是无穷的,这导致模型空间非常庞大。一般情况下,我们会遵循奥卡姆剃刀原理选择最简单同时最有效的模型来拟合,但是要明白的,奥卡姆梯度也不一定是上帝真理,也存在一些特殊的场景中,奥卡姆剃刀原理并不成立。这时我们有两种选择:
- 1)一是像上图那样用一个非常复杂的高阶向量方程来描述样本集,这项工作可以通过深度神经网络来得到;
- 2)二是反其道行之,使用一个相对简单的概率分布模型来进行拟合,但是这会带来一个新的问题,即“近似假设检验置信区间有限”问题。
- 近似假设检验置信区间有限:针对一个特定的样本集,即使我们找到了一个“近似拟合”的概率分布函数(例如泊松分布)对样本点数据进行拟合,但在大多数实际情况下,样本点并不是严丝合缝地完美拟合的,总会有一些样本点“偏离”了分布函数的值域区间。我们一般用相关系数来评估我们用来拟合的概率分布和目标样本之间的拟合程度。
2. 对宏观数字特性的关注更甚于微观准确概率分布的关注
除了精确描述抽象事物的概率分布困难之外,在一些时候,我们有时候可能也并不需要去求出随机变量的准确概率分布。相反,我们关心只是随机变量的取值在某些方面的统计数字特征,而不是它的全貌。典型的例子如:
- 天文学中的赫罗图,用光度和温度来描述所有的恒星。
- 股民在炒股票时,更在意的是大盘的平均走势及波动情况,具体的大盘指数服从何种分布并不关心。
- 顾客在购买商品时,更关注的是产品的平均寿命,并不需要了解产品寿命具体服从的分布。
- 评估不同的连续型随机变量之间的关系时,需要借助数字特征进行概括性的定量评估。
这类特征往往通过若干个实数来反映,在概率论中称它们为随机变量(或该随机变量所服从的相应分布)的数字特征。
0x2:随机变量数字特征的分类
随机变量的数字特征有很多,这里列举一些理论分析和工程应用中常用的数字特征:
- 数学期望
- 方差、标准差
- 协方差、相关系数
- k阶矩
- 期望向量、协方差矩阵
- 变异系数、分位数、中位数、众数
我们在这篇文章中选择一些在数据分析和网络安全数学建模常用的数字特征进行讨论,这也是笔者比较关注的领域,关于其他部分的详细讨论,建议读者朋友阅读原书。
Relevant Link:
《概率论与数理统计》同济大学数学系 第四章
2. 随机变量的期望和方差
0x1:数学期望
1. 数学期望的数学定义
1)离散型随机变量数学期望定义
设离散型随机变量 X 的概率函数为:
当级数收敛时,称的值为随机变量 X 的数学期望(简称为期望或均值),记作E(X),即:
由于随机变量的分布刻画了随机变量取值的统计规律性,因此,当 X 服从某个分布时,我们也称E(X)是这个分布的期望。
如果随机变量满足等该模型,则期望公式就退化成了我们熟悉的“求平均数”公式。
2)连续型随机变量数学期望定义
设连续型随机变量 X 的密度函数为f(x),当积分收敛时,称的值为随机变量 X 的数学期望(简称期望或均值),记作:
2. 数学期望的数学性质
数学期望的性质如下:
- E(c) = c
- E(kX +c) = kE(X) + c;
- E(kX + lY) = k * E(X) + l * E(Y)
- 当X与Y相互独立时,E (XY) = E(X)E(Y)
3. 常用概率分布的数学期望
1)二项分布的数学期望
当X~B(n,p)时,X的概率函数为
因此,根据期望的数学计算公式得:
2)泊松分布的数学期望
当X~P(λ)时,X的概率函数为
因此有:
3)均匀分布的数学期望
当X~U(a,b)时,X的期望为:
4)指数分布的数学期望
当X~E(λ)时,X的期望为:
5)正态分布的数学期望
当X~N(μ,σ)时,X的期望为:
4. 数学期望的意义
总体地概括来说,期望E(X)的直观含义是:期望反映了随机变量 X 的平均取值,具体对于不同的概率分布来说,平均取值的具体含义和代指会有所变化和不同。
1)二项分布期望的意义
二项分布的期望值E(X)=np,其意义表示随机变量X的平均值,或平均水平。
在具体问题中,例如金融组合分组,如果对投资结果进行数学建模,则期望代表投资结果的平均值。
2)泊松分布期望的意义
泊松分布的期望值是λ,其意义表示某个时间段内,随机事件发生的平均次数。
3)均匀分布期望的意义
均匀分布的期望值是样本值域区间的中位数,中心点。
4)指数分布期望的意义
指数分布的期望是1/λ,其意义表示某个时间段,随机事件发生的平均时间间隔。它和泊松分布正好互为倒数。
5)随机变量的物理意义
数学期望刻画随机变量取值的平均数,有直观含义,同时它也有物理含义。
若在数轴上放置一单位质量的细棒,在离散点 xi 处分布着质点其质量为 mi,则表示该细棒的重心坐标。
若在数轴上放置一单位质量的细棒,它又质量密度函数f(x),则表示该细棒的重心坐标。如下图所示:
0x2:方差和标准差
1. 方差和标准差的数学定义
设X是一个随机变量,称
为X的方差,称为X的标准差(或标准偏差)
在工程技术中广泛地使用标准差,因为它与随机变量本身有相同的量纲(具有实际物理意义)。但是在理论推导中,使用方差较方便。
值得注意的是,方差本质上是随机变量函数的期望,即随机变量和均值离差的期望,所以有:
2. 方差的数学性质
- D(c)=0,反之,如果某个随机变量X的方差为0,那么P(X=c)=1,且其中c=E(X),即随机变量退化为一个固定的确定实值
- D(X ± Y) = D(X) + D(Y) ± 2E{[X - E(X)] [Y - E(Y)]}
- 当X与Y相互独立时,D(X ± Y) = D(X) + D(Y)
3. 常用概率分布的方差
1)二项分布的方差
当n=1时,画出其函数图:
可以看到,当正反事件概率相同,即等概的时候,方差达到最大值。这也是概率分布的最大熵原理。
随着试验次数n的增加,整体方差也线性增大。
可见对于伯努利实验结果来说,实验次数增加,期望和方差都是不收敛的,会无限增大。
2)泊松分布的方差
当X ~ P(λ)时,E(X) = λ,,因此, 泊松分布的方差为
泊松分布的期望和方差是相等的,都等于λ。
3)均匀分布的方差
当X~R(a,b)时,E(X) = 1/2 * (a + b ),所以有
因此,均匀分布的方差为
4)指数分布的方差
当X~E(λ)时,,因此,指数分布的方差为
值得注意的是,方差和标准差并不是唯一的用来度量的数据分布波动程度的数字特征,数学上极差也可以发挥类似的作用,除此之外,组合型数字特征也是数据分析中常用的统计量。
Relevant Link:
《概率论与数理统计》同济大学数学系 第四章 第一节
3. 随机变量的中心化和标准化
0x1:随机变量中心化
1. 随机变量中心化数学公式
已知X是任意的随机变量,当E(X)和D(X)存在时,对随机变量X作变换:
这个变换称之为随机变量中心化。
由期望与方差的性质推得:
即中心化后的随机变量,期望为0,方差不变。
2. 中心化的性质解释
- 期望归零化:中心化随机变量将其中心点(期望点)平移至原点,使其分布不偏左也不偏右,其期望为零
- 分布波动不变性:平移不影响波动的分布程度,方差不变
0x2:随机变量标准化
1. 随机变量标准化数学公式
当D(X)>0时,对随机变量X作变换:
这个变换称之为随机变量标准化。
由期望与方差的性质推得:
2. 标准化的性质解释
- 期望归零化:标准化随机变量将其中心点(期望点)平移至原点,使其分布不偏左也不偏右,其期望为零
- 分布波动归一化:标准化将随机变量的取值按照标准差等比压缩,使其分布不疏也不密,压缩改变了分布的波动程度,方差变为1
需要注意的是,本章讨论的随机变量中心化和标准化,属于特征工程里特征归一化的处理方法之一,除此之外还有其他的特征归一化处理方法,关于这部分的讨论,可以参阅另一篇文章。
Relevant Link:
《概率论与数理统计》同济大学数学系 第四章 第二节
4. 随机变量的协方差和相关系数
单个随机变量的数学特性固然非常有用,但是在理论分析和工程实践中,遇到最多的还是两个及多个随机变量之间的互相关系。这节我们来讨论两个随机变量之间的相互关系,多个随机变量之间的关系是类似的,可以以此类推。
0x1:协方差
1. 协方差的数学定义
设(X,Y)是一个随机变量,称
为随机变量X和Y的协方差。
按照方差的定义,cov(X,X)= D(X)。协方差本质上是二维随机变量函数g(X,Y) = [X - E(X)][Y - E(Y)]的期望,即两个随机变量方差之间的关系。
计算时常用下列公式:
2. 协方差的代表含义
协方差反映了X和Y之间的协同变化关系,具体为:
设Z = [X - E(E)] [Y - E(Y)],cov(X,Y) = E(Z),则
- 若cov(X,Y) > 0,事件 {Z > 0} 更有可能发生,即X,Y同时发生和同时不发生的可能性更大。说明X和Y均有同时大于或同时小于各自平均值的趋势;
- 若cov(X,Y) < 0,事件 {Z < 0} 更有可能发生,即X,Y相反发生的可能性更大。说明X和Y其中有一个有大于其平均值的趋势另一个有小于其平均值的趋势;
特别的,当Y= X时,cov(X,Y) = cov(X,X) = D(X),协方差退化为方差。
利用协方差,可以把两个随机变量方差公式表达成:
3. 协方差的性质
- cov(X,Y) = cov(Y,X)
- cov(X,c) = 0
- cov(kX,lY) = k * l * cov(X,Y)
0x2:相关系数
协方差考察了随机变量之间协同变化的关系,但是在实际使用中存在一个问题,即量纲不一致问题。例如,如果要讨论新生婴儿的身高X和体重Y的协方差,若采用两个不同的单位,“米和千克”或者“厘米和克”,后者协方差可能会是前者的数千倍!由于量纲的不同导致X与Y的协方差前后不同。
实际上,回顾文章前面中心化和标准化的知识可知,协方差实际上是把X,Y分别中心化后的,它的值受X与Y量纲大小的影响。为了解决量纲不一致的问题,就有了相关系数。
1. 相关系数的数学定义
设(X,Y)是一个二维随机变量,当D(X) > 0,D(Y) > 0时,称为X与Y的相关系数,记作ρ(X,Y),即
这就是随机变量X和Y的相关系数,又称为标准化协方差。
利用相关系数,可以把方差的公式表达成
2. 由相关系数导出的等价命题/定理
设(X,Y)是一个二维随机变量,当ρXY = 0时,下列命题等价:
- X和Y(线性)无关或(线性)不相关
- cov(X,Y) = 0
- E(XY) = E(X) E(Y)
- 随机变量X和随机变量Y相互独立
- D(X + Y) = D(X) + D(Y)
- D(X - Y) = D(X) + D(Y)
3. 相关系数的性质
设(X,Y)是一个二维随机变量,当D(X) > 0,D(Y) > 0时,相关系数有如下性质:
- ρ(X,Y) = ρ(Y,X)
- | ρ(X,Y) | ≤ 1
- | ρ(X,Y) | = 1 的充分必要条件是:存在不为零的常数k与常数c,使得P(Y = kX + c) = 1,其中
- 当ρ(X,Y) = ±1 时,X与Y之间以概率1成立完全线性相关。当 ρ(X,Y)=1时,称X与Y完全正线性相关;当ρ(X,Y)=-1时,称X与Y完全负线性相关
- 当0 < ρ(X,Y) < 1时,称X与Y正线性相关;当-1 < ρ(X,Y) < 0时,称X与Y负线性相关;
- X与Y之间线性联系的程度随着 | ρ(X,Y) | 的减小而减弱。当ρ(X,Y)=0时,ρXY=0,称X与Y不相关,则有cov(X,Y)=0,或E(XY)=E(X)E(Y)
0x3:随机变量之间线性相关和相互独立之间的包含关系
随机变量相互独立和线性无关都刻画了随机变量之间的关系,相互独立时一定线性无关,但反之不一定成立,如下图:
举例说明,设随机变量Z服从区间[0,2π]上的均匀分布,令 X = sinZ,Y = cosZ
根据边缘概率分布公式得:
根据方差公式有:
,同理有
根据期望公式有:
根据协方差公式有:
所以随机变量X和Y不相关。
但是因为,所以f(X,Y) != f(X) * f(Y),所以X与Y不相互独立。
可见,相互独立是一种比不相关更强的关系。可以这样说:
- 相互独立是从整体也即分布的角度刻画随机变量之间的关系,它意味着两个随机变量无任何关系
- 而不相关仅仅是从数字特征角度刻画随机变量之间的关系,它意味着两个随机变量之间无线性关系,但不意味着两个随机变量之间无其他关系(可能是非线性关系),因此,不相关不一定相互独立
0x4:协方差矩阵
对于二维随机变量(X,Y),称向量
为(X,Y)的期望向量(或均值向量),称矩阵
为(X,Y)的协方差矩阵,由于cov(X,X) = D(X),因此,n维随机向量(X1,... ,Xn)的协方差矩阵为
Relevant Link:
《概率论与数理统计》同济大学数学系 第四章 第四节
5. 从相关系数的角度来看线性回归参数估计结果
0x1:一个简单的一元线性回归案例
有一个公司,每月的广告费用和销售额,如下表所示:
我们把广告费和销售额画在二维坐标内,就能够得到一个散点图,利用一元线性回归做出一条拟合直线,y = ax + b。
使用最小二乘法进行参数估计,就可以求出a和b了。
最终的回归拟合直线为:Y=1.98X+2.25。
0x2:从随机变量概率分布的角度来看样本数据分布和回归模型的参数分布
从概率分布的角度来看线性回归模型的参数估计过程。我们设样本点对应的随机变量为X,参数对应的随机变量为Y。
从上图可以得到:ρ(X,Y) != 1
所以X和Y不满足完全线性相关的关系,也即:不存在不为零的常数k与常数c,使得P(Y = kX + c) = 1
从线性方程组求解的角度来看,直接基于原始输入样本点求解线性方程组就是无解的。
所以,线性方程组引入了”显著性检验“这个度量方法,用来评估参数估计的结果和目标样本点的拟合程度,常用的显著性检验方法包括:
- R2:方程的确定性系数(coefficient of determination)
- F检验值
- T检验值
这里我们以R2为例进行说明,在R2中,量化度量拟合程度的公式如下
R2显著性由两个不同的误差损失,SSR和SSE比例相除得到。
SSE和SSR共同组成了SST(总残差损失),我们分别介绍
SST(总偏差)= SSR(回归线可以解释的偏差)+ SSE(回归线不能解释的偏差)
残差平方和(SSE,Sum of Squaresfor Error):因变量的各实际观测值(给定点的Y值)与回归值(回归直线上的Y值)的差的平方和,它是除了x对y的线性影响之外的其他因素对y变化的作用,是不能由回归直线来解释的
R^2的取值在[0,1]之间,越接近1说明拟合程度越好。
现在回到随机变量协方差的视角,重写上述SSR和SSE公式,会发现:
- SSR:本质上就是E(Y - E(Y))
- SSE:本质上就是E(E - E(E))
- R2:本质上就是cov(X,Y)
所以总R2显著性公式本质上度量了参数随机变量X和样本随机变量Y之间的协同关系,即协方差。协方差越接近1,拟合程度就越高。
0x3:相关系数和回归系数的一般性关系
上个小节我们用了一个具体的例子来说明了线性回归中参数估计拟合程度和随机变量中相关系数的等价关系。这个小节我们将这个结果泛化为一般性的结论。
1. 相关系数是标准化的回归系数
回归系数b是有单位的,但若对b作消去单位的标准化处理,即对b中x,y的离均差以各自的标准差 和 为单位:
故有时将相关系数称为标准回归系数
2. 线性回归方程也可用相关系数等价表示
则
可改写为:
0x4:相关分析与回归分析的关系
笔者这里用随机变量相关性分析的视角来讨论回归分析,并不是说相关分析和回归分析是同一个东西。
相关分析与回归分析在实际应用中有密切关系。然而它们存在着不同:
- 在回归分析中,所关心的是一个随机变量Y对另一个(或一组)随机变量X的依赖关系的函数形式,确定因果关系,并用数学模型来表现其具体关系
- 相关分析中 ,所讨论的变量的地位一样,不区分自变量和因变量,分析侧重于随机变量之间的种种相关特征
例如,以X、Y分别记小学生的数学与语文成绩,感兴趣的是二者的关系如何,而不在于由X去预测Y
Relevant Link:
https://www.cnblogs.com/LittleHann/p/7354706.html#_label1 https://zhuanlan.zhihu.com/p/49221154 https://blog.csdn.net/mengjizhiyou/article/details/82177830 https://blog.csdn.net/xiaojianpitt/article/details/5453023 http://soundrain.net/2017/05/25/20170525-%E4%BB%8E%E7%BB%9F%E8%AE%A1%E5%AD%A6%E8%A7%92%E5%BA%A6%E7%9C%8B%E7%BA%BF%E6%80%A7%E5%9B%9E%E5%BD%92%E4%B8%AD%E7%9A%84%E5%9B%9E%E5%BD%92%E7%B3%BB%E6%95%B0/
6. 回归模型参数最优化和参数概率分布估计的区别与联系
回归模型的参数最优化的目标是得到一个最优的判别式模型,而模型参数概率密度估计的目标是得到一个生成式概率模型。
简单来说,他们之间的联系是:通过损失函数最优化技巧得到的模型参数,等价于求E(X - Yobj),即参数随机变量和样本点的差值函数的期望均值。
关于这方面的讨论,可以参阅另一篇文章。
7. 从信息论Kullback-Leibler散度的角度来看线性回归参数估计结果
如果将回归模型的参数空间看作是是一个概率分布的话,损失函数求解的目标就是寻找和样本随机变量相关度最高的参数随机变量分布。除了相关性度量之外,还可以从信息论KL散度角度来度量参数估计结果和样本分布的拟合程度。
从数学上说,我们可以把Kullback-Leibler散度看做两个分布p(x)和q(x)之间不相似程度的度量。
在数据压缩和密度估计(即对未知概率分布建模)之间有一种隐含的关系,因为当我们知道真实的概率分布之后,我们可以给出最有效的压缩。如果我们使用了不同于真实分布的概率分布,那么我们一定会损失编码效率,并且在传输时增加的平均额外信息量至少等于两个分布之间的Kullback-Leibler散度。
假设数据通过未知分布p(x)生成,我们想要对p(x)建模。我们可以试着使用一些参数分布q(x | θ)来近似这个分布。
q(x | θ)由可调节的参数θ控制(例如一个多元高斯分布)。一种确定θ的方式是最小化 p(x) 和 q(x | θ) 之间关于θ的Kullback-Leibler散度。
但是我们不能直接这么做,因为我们不知道未知分布p(x)。
但是,我们可以通过数据驱动的方式来近似达到这个目的,假设我们已经观察到了服从分布p(x)的有限数量的训练点xn,其中n = 1, . . . , N 。那么,关于p(x)的期望就可以通过这些点的有限加和,使用公式
来近似,即:
可以看到,上式右侧的第二项与θ无关,第一项是使用训练集估计的分布q(x | θ)下的θ的负对数似然函数。因此我们看到,最小化Kullback-Leibler散度等价于最大化似然函数。
关于KL散度相关话题的一些讨论可以参阅这篇文章。关于信息论和熵原理的更多讨论,笔者会在之后的迭代中继续完善这篇文章。