线性统计模型 2.25

在诸多例子中,Y 通常被称作因变量或响应变量,X 被称为自变量或预报变量。Y 的值由两部分构成:一部分是由 X 决定的部分,为 X 的函数 f(X) ;另一部分是由其他未考虑因素(含随机因素)产生影响的随机误差 e 。由此得到模型

Y=f(X)+e

且作为随机误差的 e ,其均值 E(e)=0E() 表示随机变量的均值。
特别,当f(X)是线性函数f(X)=β0+β1X时,我们得到

Y=β0+β1X+e

在这个模型中,若忽略掉e,它就是一个通常的直线方程. 因此,我们称之为线性回归模型或线性回归方程.
常数项β0是直线的截距,β1是直线的斜率,也称为回归系数.在实际应用中,β0β1皆是未知的,需要通过观测数据来估计.
假设自变量X分别取值为x1,x2,,xn时,因变量Y对应的观测值分别为y1,y2,,yn.于是我们有n组观测值(xi,yi),i=1,,n.如果YX有回归关系,则这些(xi,yi)应该满足

yi=β0+β1xi+ei,i=1,,n

这里ei为对应的随机误差. 应用适当的统计方法, 可以得到β0β1的估计值β^0,β^1,将它们代入 ,再略去误差项ei得到

Y=β^0+β^1X

在实际问题中,影响因变量的主要因素通常较多,需考虑含多个自变量的回归问题。假设因变量Yp1个自变量X1,,Xp1的关系为Y=β0+β1X1++βp1Xp1+e,此为多元线性回归模型,其中β0是常数项,β1,,βp1是回归系数,e是随机误差。
假设对Y,X1,,Xp1进行n次观测,得到n组观测值xi1,,xi,p1,yii=1,,n ,它们满足一定关系式
在实际问题中,影响因变量的主要因素往往很多,这就需要考虑含多个自变量的回归问题.假设因变量Yp1个自变量X1,,Xp1之间有如下关系:

Y=β0+β1X1++βp1Xp1+e

这是多元线性回归模型,其中β0为常数项,β1,,βp1为回归系数,e为随机误差.
假设我们对Y,X1,,Xp1进行了n次观测,得到n组观测值

xi1,,xi,p1,yi$$i=1,,n

它们满足关系式

yi=β0+xi1β1++xi,p1βp1+ei$$i=1,,n

这里ei为对应的随机误差.引进矩阵记号

y=(y1y2yn)

X=(1x11x1,p11x21x2,p11xn1xn,p1)

β=(β0β1βp1)

e=(e1e2en)

(1.1.10)就写为如下简洁形式:

y=Xβ+e

这里yn×1的观测向量,Xn×p已知矩阵,通常称为设计矩阵.对于线性回归模型,术语“设计矩阵”中的“设计”两字并不蕴含任何真正设计的含义,只是习惯用法而已.近年来,有一些学者建议改用“模型矩阵”.但就目前来讲,沿用“设计矩阵”者居多.β为未知参数向量,其中β0称为常数项,β1,,βp1为回归系数.而en×1随机误差向量,关于其最常用的假设是:
(a) 误差项均值为零,即E(ei)=0i=1,,n.
(b) 误差项具有等方差,即

Var(ei)=σ2i=1,,n

(c) 误差是彼此不相关的,即

Cov(ei,ej)=0ijj=1,,n

通常称以上三条为Gauss - Markov假设.模型(1.1.11)和假设(1.1.12)构成了我们以后要讨论的最基本的线性回归模型.
在Gauss - Markov假设中,第一条表明误差项不包含任何系统的趋势,因而观测值yi的均值

E(yi)=β0+xi1β1++xi,p1βp1$$i=1,,n

这就是说,观测值yi大于或小于其均值E(yi)的波动完全是一种随机性的,这种随机性来自误差项ei.我们知道,一个随机变量的方差刻画了该随机变量取值散布程度的大小,因此假设(b)要求ei等方差,也就是要求不同次的观测yi在其均值附近波动程度是一样的.这个要求有时显得严厉一些.在一些情况下,我们不得不放松为Var(ei)=σi2i=1,,n,这种情况将在§7.2讨论.第三条假设等价于要求不同次的观测是不相关的.在实际应用中这个假设比较容易满足.但是在一些实际问题中,误差往往是相关的.这时估计问题比较复杂,本书中不少地方要讨论这种情形.
假设

β^=(β^0,β^1,,β^p1)

β的一种估计,将它们代入(1.1.9),并略去其中的误差项e,得到经验回归方程

Y=β^0+β^1X1++β^p1Xp1

和单个回归自变量的情形一样,这个经验回归方程是否真正描述了因变量Y与自变量X1,,Xp1之间的关系,还需要适当的统计检验.
上面我们讨论的都是线性回归模型.有一些模型虽然是非线性的,但经过适当变换,可以化为线性模型.
例1.1.3 在经济学中,著名的Cobb - Douglas生产函数为
Qt=aLtbKtc
这里Qt,LtKt分别为t年的产值、劳力投入量和资金投入量,a,bc为参数.在上式两边取自然对数
ln(Qt)=lna+bln(Lt)+cln(Kt).
若令
yt=ln(Qt)xt1=ln(Lt)xt2=ln(Kt)
β0=lnaβ1=bβ2=c
则再加上误差项,便得到线性关系
yt=β0+β1xt1+β2xt2+ett=1,,T. (1.1.15)
因此我们把非线性模型(1.1.14)化成了线性模型.
例1.1.4 多项式回归模型
假设因变量Y和自变量X之间具有关系

Y=β0+β1X+β2X2+β3X3+e

这是三次多项式回归模型.若令X1=XX2=X2X3=X3,则有

Y=β0+β1X1+β2X2+β3X3+e

这就是一个线性模型.从这里我们看到,线性模型(1.1.9)的基本特征是:它关于未知参数

β0,β1,,βp1

是线性的.

在结束这一节之前,我们解释一下“回归”一词的由来.“回归”英文为“regression”,是由英国著名生物学家兼统计学家高尔顿(Galton)在研究人类遗传问题时提出的.为了研究父代与子代身高的关系,高尔顿收集了1 078对父亲及其一子的身高数据.用X表示父亲身高,Y表示儿子身高,单位为英寸(1英寸为2.54cm).将这1 078对(xi,yi)标在直角坐标纸上,他发现散点图大致呈直线状.也就是说,总的趋势是父亲的身高X增加时,儿子的身高Y也倾向于增加,这与我们的常识是一致的.但是,高尔顿对数据的深入分析,发现了一个很有趣的现象——回归效应.
因为这1 078个xi值的算术平均值x¯=68英寸,而1 078个yi值的平均值为y¯=69英寸,这就是说,子代身高平均增加了1英寸.人们自然会这样推想,若父亲身高为x,他儿子的平均身高大致应为x+1​,但高尔顿的仔细研究所得

posted @   redufa  阅读(7)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· 阿里巴巴 QwQ-32B真的超越了 DeepSeek R-1吗?
· 如何调用 DeepSeek 的自然语言处理 API 接口并集成到在线客服系统
· 【译】Visual Studio 中新的强大生产力特性
· 2025年我用 Compose 写了一个 Todo App
点击右上角即可分享
微信分享提示