[转载]R2: 已解释和未解释的方差

估计值的方差与总体方差之间的差异就是回归方程对方差的解释率。试举一例,如图 1,身高与体重的回归线显示身高与体重之间呈正相关,Mr. Y身高76英寸体重220磅(图 1中插图.cdr红点),他与体重平均值的总离差Y-$\bar{Y}$)是220-155=65磅。这个总离差可以被分解为两部分:一部分是Y与回归线之间的离差Y-Y’),等于30;另一部分是预测值与体重平均值的离差Y’-$\bar{Y}$),等于35。这两部分之和加起来就是65总的离差。 

 

图 1

一般地,Y-Y’)+Y’-$\bar{Y}$)=(Y-Y),第一部分是Y-Y’),这是预测的误差,有时我们也把它看成是方差的“未解释”部分,反之,第二部分(Y’-$\bar{Y}$)则是“已解释”部分。对Mr. Y来说,他的身高“解释”(或预测)了他的部分体重——我们预期他的体重高于平均水平,但是他甚至比他的身高所预期的体重还要重;这个额外的体重就是身高没法解释的,所以称为“未解释值”。

如果所有这一个个的“未解释值”被平方并加起来(Y-Y’)2,那么我们将得到未解释的平方和SS(Sum of Square),将这个未解释的SS除以N就得到了未解释的方差(unexplained variance)。同样地,我们可以将基于所有的(Y’-$\bar{Y}$)平方而得到的已解释的SS除以N来求得已解释的方差量。已解释和未解释的方差加总起来等于总的方差。(这句话不对吧?

如何评估回归线究竟在以一个变量预测另一个变量的工作中做得怎么样,可以将已解释的方差除以总方差,这个比值就叫做决定系数(Coefficient of determination),它代表了总方差被预测变量所解释或决定的比率。决定系数等于r2(Squared Pearson’s Correlation Coeficient),r2也称为“方差解释率”。

 

参考文献

[1] Cohen BH. Explaining psychological statistics[M]. New York, US:John Wiley & Sons, 2008. 中译本: 高定国等译, 心理统计学(第三版)[M]. 上海:华东师范大学出版社, 2011.

 

“解释”的两层含义

回归模型中的R2可以被称为“方差解释率”,那么这个“解释”要怎样理解(自我描述)。

举例,甲、乙二人同程一辆汽车,甲开车,乙坐车,这辆车以60km/h正常行驶在公路上。若用甲的时速解释乙的时速,可以这样理解:已知甲时速60km,他们同乘一辆车,则可以预测乙也是时速60km,强调他们二者之间的相关性;另一方面,已知甲时速60km,并且甲在开车,那么可以确定乙也是时速60km,强调二者的因果关系,因为甲开车时速60km才导致乙的时速是60km,可以理解为甲驱动乙的空间位移是60km/h。

所以,“解释”在回归模型中对于XY包含两层含义,X驱动YX预测Y。简言之,“解释”有驱动和预测的两层含义。


转自:http://blog.sciencenet.cn/blog-1148346-852482.html

posted on 2017-05-25 17:15  gogoy  阅读(1712)  评论(0编辑  收藏  举报

导航