数学 - 回归分析 - 第 3 章 多元线性回归 - 3.5 中心化和标准化

3.5 中心化和标准化

在多元线性回归中,由于涉及多个自变量,自变量单位往往不同,给利用回归方程进行结构分析带来一些困难。由于有时多元回归涉及的数据量很大,可能因为舍入误差而使计算结果不理想。因此,对原始数据进行处理,避免较大的误差是有实际意义的。

产生舍入误差有两个主要原因:一是在回归分析计算中数据量级有很大差异;二是设计矩阵 X 的列向量近似线性相关,XX 为病态矩阵,其逆矩阵 (XX)1 产生了较大的误差。

3.5.1 中心化

多元线性理论回归模型一般形式为:

y=β0+β1x1+β2x2++βpxp+ε

多元线性经验回归方程一般形式为:

y^=β^0+β^1x1+β^2x2++β^pxp

经验回归方程必定经过样本中心 (x¯1,x¯2,,x¯p;y¯),将坐标原点移至样本中心,即做坐标变换

xij=xijx¯j,i=1,,n,j=1,,p

yi=yiy¯,i=1,,n

则经验回归方程转变为:

y^=β^1x1+β^2x2++β^pxp

上式即为中心化经验回归方程。中心化经验回归方程的常数项为 0,而回归系数的最小二乘估计 β^1β^2β^p 保持不变。这是因为坐标系的平移变换只改变直线的截距,不改变直线的斜率。

中心化经验回归方程较一般的经验回归方程少一个未知参数,这使得计算量减少很多。可以先对数据中心化,求出中心化经验回归方程,再由

β^0=y¯β^1x¯1+β^2x¯2++β^px¯p

求出常数项估计值 β^0

3.5.2 标准化回归系数

在用回归方程描述某种现象时,由于自变量 x1x2xp 所用单位大多不同,数据的大小差异也往往很大,这不利于在同一标准上进行比较。为了消除量纲不同和数量级差异所带来的影响,就需要将样本数据做标准化处理

i=1,2,,nj=1,2,,p,样本数据的标准化公式为:

xij=xijx¯jLjj

yi=yiy¯Lyy

上式中,

Ljj=i=1n(xijx¯j)2,Lyy=i=1n(yiy¯)2

分别表示自变量 xj 和因变量 y 的离差平方和。用最小二乘法求出标准化的样本数据 (xi1,xi2,,xip;yi) 的经验回归方程,记为:

y^i=β^1x1+β^2x2++β^pxp

式中,β^1β^2β^py 对自变量 x1x2xp 的标准化回归系数。标准化包括了中心化,因而标准化的回归常数项为 0

posted on   Black_x  阅读(3110)  评论(0编辑  收藏  举报

编辑推荐:
· AI与.NET技术实操系列:基于图像分类模型对图像进行分类
· go语言实现终端里的倒计时
· 如何编写易于单元测试的代码
· 10年+ .NET Coder 心语,封装的思维:从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热?
阅读排行:
· 分享一个免费、快速、无限量使用的满血 DeepSeek R1 模型,支持深度思考和联网搜索!
· 基于 Docker 搭建 FRP 内网穿透开源项目(很简单哒)
· 25岁的心里话
· ollama系列01:轻松3步本地部署deepseek,普通电脑可用
· 按钮权限的设计及实现
< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

统计

点击右上角即可分享
微信分享提示