【数理统计基础】 05 - 回归分析

  参数估计和假设检验是数理统计的两个基础问题,它们不光运用于常见的分布,还会出现在各种问题的讨论中。本篇开始研究另一大类问题,就是讨论多个随机变量之间的关系。现实生活中的数据杂乱无章,够挖掘出各种变量之间的关系非常有用,它可以预估变量的走势,能帮助分析状态的根源。关系分析的着手点可以有很多,我们从最简单直观的开始,逐步展开讨论。

1. 一元线性回归

1.1 回归分析

  如果把每个量都当做随机变量,问题的讨论会比较困难,或者得到的结论会比较受限。一个明智做法就是只把待考察的量Y看做随机变量,而把其它量Xi看成是自主选定的。即使都看成变量,也是把Y看成因变量,而把Xi看成自变量。该模型同样是研究某个随机变量的情况,不同之处在于更加关注变量与各因素的函数关系,希望能找到影响随机变量的主要因素并给出表达式。

  如式(1)所示,选定要关注的因素Xi,并假定它们以函数f(X1,,Xp)形式影响变量Y,其它的因素统一放到随机变量e中。其中函数f称为YXi回归函数回归方程e则是随机误差。由于已经提取出主要因素,这里假定e的均值为0,并且它是与f独立的。在应用场景,一般给定回归函数一个含参表达式(比如后面的线性回归),这样的问题称为参数回归问题,否则叫非参数回归问题。

(1)Y=f(X1,X2,,Xp)+e,E(e)=0,0<D(e)<

  在微积分中我们知道,多元函数f(x1,,xp)一般可以在任何点进行泰勒展开,其中最简单的就是线性展开。线性关系由于其形式简单,以及在局部能很好地逼近函数,在数学的各分支都被重点讨论。在回归分析中,这样的模型便称为线性回归,这里先从最简单的一元线性回归讨论起。

  一元线性回归的模型是式(2)左,在提取出线性关系b0+b1X后,Y的剩余因素或随机性就都落在随机变量e上。所以从另一个角度看,回归分析是要找出随机变量的“确定”部分和随机部分,这种分解更能帮助分析随机现象。自然地,分析是基于n个样本点(Xi,Yi),其中Xi可能也是随机产生的,但在这个模型里一律看做定量。还要注意,这时每个Yiei的一个位移,它不再与Y同分布。

(2)Y=b0+b1X+e;Yi=b0+b1Xi+ei=a0+a1(XiX¯)+ei

1.2 系数点估计

  每一次试验相互独立,因此得到n个独立变量(式(2)右),其中b0,b1是待定系数。为了方便计算和讨论,一般还会把式(2)右的线性部分“中心化”。问题等价于讨论a0,a1的值,但要注意这里X¯是依赖于具体样本的。在得知样本点(Xi,Yi)的情况下,如何确定系数比较合理?在式(2)中,我们把Yi看做是有误差ei的变量,因此让误差的平方和达到最小是一个比较好的模型。

  式(3)取最小值时a0,a1便是合理的参数估计,利用偏导为零容易算得式(4)中对a0,a1的估计,这个结论非常得益于刚才的中心化。求解的方法其实就是最小二乘法,这在后面再展开讨论。a0表示Y的中心,估计值α0十分合理。a1应当是Y关于X的斜率,单点的斜率是YiY¯XiX¯,将分子分母同时乘以XiX¯并相加,化简后便得到α1,故它也是斜率的合理估计。

(3)i=1n(Yib0b1Xi)2

(4)α0=Y¯;α1=i=1nXiX¯S2Yi,S2=i=1n(XiX¯)2

  另外还要注意,式(4)中Xi是定值,而Yi独立随机变量,α0,α1都是Yi的线性函数,这对于下面的讨论很重要。估计合理的另一个基本要求应当是误差估计、即统计量(随机变量)α0,α1的期望值应当就是a0,a1,利用式(5)左很容易验证结论成立(式(5)右)。以下令e的方差为σ2,利用Yi的无关性也容易有式(6)。其中D(α1)分母中的S2有直观的含义,当Xi比较分散时,得到的斜率估计越准确。另外还可以证明,α0,α1a0,a1的MVU估计。

(5)E(Yi)=a0+a1(XiX¯)E(α0)=a0,E(α1)=a1

(6)D(Yi)=σ2D(α0)=σ2n,D(α1)=σ2S2

  还有一点,把α0,α1看成Yi的线性函数,观察两者的“系数向量”,发现它们内积为0。从向量的角度它们就是直交的,经验证α0,α1也的确是(线性)不相关的,这个结论非常重要,也显示了前面中心化的意义。另外,当e是正态分布时,α0,α1也都是正态分布,故可知它们独立。

1.3 误差估计

  对于模型(2)来说,目前还有e的方差σ2没有讨论,在有了系数估计(4)后,现在来估计误差的方差。随着X的变化,Y的中心也跟着变化,其误差的方差自然也要以具体的中心为准。在样本点(Xi,Yi)处,误差δi(式(7))也称为残差,它们的平均平方和理应作为方差的估计。但由于α0,α1的估计中消耗了两个自由度,故可验证式(7)才是σ2的无偏估计。

(7)σ^2=1n2i=1nδi2,δi=Yiα0α1(XiX¯)

  具体计算步骤参考教材(或自行证明),结果是得到式(8),这样就不难得到是(7)了。当然在实际计算时,可以直接展开得到式(9),然后利用现成的Xi,Yi,αj来加速计算。而且从式(9)中还能得到更有用的结论,注意其中的后两项nY¯2=Z12S2α12=Z22Z1,Z2都是Yi的线性函数,且系数向量是两个相互正交的标准化向量。

(8)i=1nδi2=i=1n(eie¯)2+1S2(i=1n(XiX¯)ei)2

(9)i=1nδi2=i=1nYi2nY¯2S2α12

  当e是正态分布时,Yi也是正态分布,利用正交变换的性质,易知式(9)等于Z32++Zn2,其中ZjN(0,σ2),这便容易有式(10)的结论。关于残差,还有两点需要注意,式(8)如果很大或者残差体现出某些规律性,则说明线性模型不太合适,或还有重要因素没有被提取出来。

(10)eN(0,σ2)i=1nδi2σ2χn22

1.4 区间估计

  有了点估计,便可以做区间估计,为了能使用枢轴函数,这里还是假定e为正态分布。首先由公式(5)(6)可知α0,α1满足式(11)的分布,当σ已知时,枢轴函数很容易得到。当σ未知时,由刚才的讨论知α0,α1σ^2是相互独立的,这样便能用σ^替代σ,得到式(12)的枢轴变量。

(11)α0N(a0,σ2n);α1N(a1,σ2S2)

(12)n(α0a0)σ^tn2;S(α1a1)σ^tn2

  线性回归的目的自然是为了进行预测,但在仅知道样本点且把Xi看成定量的情况下,其实是无法估计最初式(2)左中的b0,b1的。因此要注意,在用y=a0+a1(xX¯)预估Y时,我们不光丢失了误差e,还丢失了X非连续得来的误差。前者通过合理建模来降低误差,后者则只能通过增加Xi的数量和密度来降低误差。

  这一点容易通过估计值y的方差看出(式(13))。首先在样本数不变的情况下,x离样本中心X¯越近方差越小,这个结论符合直觉,样本离预测点越近精度越高。另一方面,样本数越大方差也越小,这个很好理解。结合这两方面,当n足够大且x离样本中心足够近,估计的方差就可以任意小。

(13)D(y)=(1n+(xX¯)2S2)σ2

2. 多元线性回归

2.1 系数估计

  现实中的因变量可能受多个因素的影响,这些因素可能有主次之分,也可能是联合作用。无论如何,为了对因变量进行更加深入细致的分析,必须加入更多的自变量进行分析。另外同样的道理,多元函数在局部都可以用线性函数很好地近似,因此我们也可以建立式(14)中的模型和中心化样本表达式。为表达方便,本段下面就直接把XkiX¯k记作Xki

(14)Y=b0+k=1pbkXk+e;Yi=a0+k=1pak(XkiX¯k)+ei

  多元模型的讨论内容和方法与一元的差别不大,但直接的讨论会很繁琐,必须借助于线性代数的工具,请注意前后对比。为讨论方便,首先规定式(15)的简写,并记γ的点估计为α。然后定义列向量的期望E(α)=[E(αi)],以及协方差Cov(α,β)=[Cov(αi,βj)],且不难验证有式(16)成立。其实利用算子理论证明会很简单,但光凭形式化的假设,也不难完成证明,请独立尝试。

(15)β=[Y1Y2Yn],γ=[a0a1ap],A=[11X11X1nXp1Xpn]

(16)E(Aα)=AE(α);Cov(Aα,Bβ)=ACov(α,β)BT

  有了矩阵的定义,就可以直接利用线性代数中最小二乘的结论,得到(17)左的正则方程,以及式(17)的γ最小二乘解。式(18)推导出αiai的无偏估计,且都是Yi的线性函数,继而还可以得到式(19)的协方差公式。注意到A中除第一列外,每行的和都是0,故LL1都具有形式[100Bp×p]。这说明α0=Y¯与其它αi互不相关,这与一元的情况是一致的。

(17)Lα=Aβα=L1Aβ,(L=AAT)

(18)E(α)=L1AE(β)=L1AATγ=γ

(19)Cov(α,α)=L1ACov(β,β)ATL1=σ2L1

2.2 误差估计

  现在来分析误差e,首先记残差向量δ=βATα,容易证明E(δ)=0,而且根据式(20)的推导可知αiδj互不相关。另外可以算得式(21)的协方差,其中B是一个秩为p+的非负定方阵。根据B2=B可以证明,Bp+1个特征值都是1,从而它的迹tr(B)=p+1(主对角线之和,请参考线性代数)。

(20)Cov(α^,δ)=L1ACov(β,β)(InATL1A)=0

(21)Cov(δ,δ)=(InB)Cov(β,β)(InB)=σ2(InB),(B=ATL1A)

  为了估计σ2,自然想到讨论残差平方和i=1nδi2。式(22)计算了它的期望值,这样就可以用式(23)来无偏估计σ2

(22)E(i=1nδi2)=i=1nD(δi)=tr(Cov(δ,δ))=σ2(np1)

(23)σ^2=1np1i=1nδi2

  残差平方和δTδ是一个半正定二次型,展开整理后有式(24)成立,它满足柯赫伦定理的条件。故假定e为正态分布的情况下,有式(25)左成立。另外由于αiδj互不相关,则αiσ^也不相关,正态分布下它们还是相互独立的,这就得到式(25)右的枢轴变量。

(24)βTβ=βTBβ+δTδ

(25)i=1nδi2σ2χnp1;αiaiLii1σ^tnp+1

2.3 假设检验

  线性回归的假设往往是针对线性系数ak的,如果仅是对单个系数的检验,直接利用式(25)的枢轴变量即可。实际应用中最常用的假设是ak=0,它说明因素XkY其实是不相关的,这对检验变量相关性很有用(但更偏重XkY的影响)。观察式(17),你会发现αk并不只与Xk,Y有关,它与上面的一次模型得到的结论不一样。可以这样解释:更多因素的加入使得模型更加精确。

  但是不是因素越多越好?如果加入的是真正影响Y的元素,对模型自然是有益的,否则多加入的元素只能增加随机性,从而对结论精度造成影响。样本不足的情况下,以上模型容易把无效元素估计成“假”的关系,从而影响真实因素的作用。但逐个地检验无效元素,有时效果并不好,因为元素之间的复杂关系和随机性会使得检验出现较大偏差。

  检验较多无关参数时,最好能将它们捆绑操作,当选定好要检验的无关参数后,甚至可以将将模型中的其它参数去除,以简化讨论,也就是说假设条件变成a1==ap=0。但这个多变量的假设很难建立之前单变量的枢轴变量,我们需要另外找一个变量作为度量的对象。在鉴别“有效、无效”元素的问题中,注意“有效”的元素的典型特征,就是使得残差平方和变小,或者说使得σ^2尽量小。这便是我们要找的“值”,具体来说,就是要度量σ^2σ2之间的差别。

  但由于σ2未知,必须找统计量来替代它,在假设条件下,自然是用SY2。当直接用σ^2SY2难产生好的枢轴变量,原因主要是系数的影响,这时我们自然想到直接比较残差平方和。为此记R1=δTδ,并记假设条件下的残差平方和为R2。为了讨论方便,这里把式(14)稍作修改,就是先作出估计α0=Y¯,然后用Yi取代Yiα0重新建模,随之γ,A中的第一列也去除。

  但新的模型仍然能得到式(17)的估计式,以及残差向量δ=βATα。这个模型下R1,R2如式(26)所示,不难发现R2R1=βTBβ,而已知B2=B,所以R2R1也是一个半正定二次型。再次使用柯赫伦定理可有式(27)左成立,并且R2R1R1互相独立,这等价于与σ^2互相独立,所以得到式(27)右的枢轴变量。注意到R2R1,故检验否定的条件应当是F>C

(26)R1=δTδ=βT(InB)β;R2=βTβ

(27)R2R1σ2χp2;R2R1rσ^2Fp,np1

posted on   卞爱华  阅读(1601)  评论(0编辑  收藏  举报

编辑推荐:
· 10年+ .NET Coder 心语,封装的思维:从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热?
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
阅读排行:
· 10年+ .NET Coder 心语 ── 封装的思维:从隐藏、稳定开始理解其本质意义
· 地球OL攻略 —— 某应届生求职总结
· 提示词工程——AI应用必不可少的技术
· Open-Sora 2.0 重磅开源!
· 周边上新:园子的第一款马克杯温暖上架

导航

点击右上角即可分享
微信分享提示