推导难点
线性回归方程的推导难点:
给定一组数据 (x1,y1),(x2,y2),⋯,(xn,yn),则该组数据的样本中心为 (¯x,¯y),其中 ¯x=1nn∑i=1xi,¯y=1nn∑i=1yi
可知,线性回归直线方程为 [具体计算公式,题目中往往直接给定]:ˆy=ˆbx+ˆa
其中回归系数 ^b 的部分推导过程如下:
^b=n∑i=1(xi−¯x)(yi−¯y)n∑i=1(xi−¯x)2=n∑i=1xiyi−n⋅¯x⋅¯yn∑i=1x2i−n⋅¯x2
回归系数 ^a 的计算公式:
^a=¯y−^b⋅¯x
n∑i=1(xi−¯x)(yi−¯y)=n∑i=1(xiyi−xi¯y−¯xyi+¯x¯y)=n∑i=1xiyi−¯yn∑i=1xi−¯xn∑i=1yi+¯x¯yn∑i=11=n∑i=1xiyi−n¯x¯y−n¯x¯y+n¯x¯y=n∑i=1xiyi−n¯x¯y
仿照这个推导思路,你能推导 n∑i=1(xi−¯x)2=n∑i=1x2i−n¯x2 吗?
提示:从 2016 和 2022 高考试题解答来看,以下公式是需要记忆的:
n∑i=1(xi−¯x)(yi−¯y)=n∑i=1xiyi−n¯x¯y, n∑i=1(xi−¯x)2=n∑i=1x2i−n¯x2,
计算难点
【案例】某题目给定 8∑i=1xi=480,8∑i=1yi=480,8∑i=1x1yi=22500,8∑i=1x2i=30400,
可以计算 ¯x=60,¯y=45,代入 ^b=n∑i=1xiyi−n⋅¯x⋅¯yn∑i=1x2i−n⋅¯x2 来计算
计算细节:^b=8∑i=1xiyi−8⋅¯x⋅¯y8∑i=1x2i−8⋅¯x2
=22500−8×60×4530400−8×60×60=225−8×6×4.5304−8×6×6
=225−36×6304−8×6×6=225−216304−288=916
表格解读
P(χ2≥k0) |
0.500 |
0.400 |
0.250 |
0.150 |
0.100 |
0.050 |
0.025 |
0.010 |
0.005 |
0.001 |
k0 |
0.455 |
0.708 |
1.323 |
2.072 |
2.706 |
3.841 |
5.084 |
6.635 |
7.897 |
10.828 |
H0: 先假设两个变量 A,B 是无相关关系的,χ2 的观测值 k0 越大,则与之对应的假设事件 H0 成立的概率越小,那么 H0 不成立的概率越大,即两个变量相关的概率越大。
- 使用实例:比如计算得到 χ2=8,则有 8>7.897,而 7.897 对应概率值为 0.005,故有 1−0.005=99.5% 以上的把握认为 “两个变量有关”,但还是有低于 0.5% 的判断出错可能性,并不是百分之百。
案例分析
涉及线性回归计算中的几点技巧 [实验验证] 数学实验验证
【案例】某公司第二、第三季度的用电量与月份线性相关,数据统计如下:
月份 x |
4 |
5 |
6 |
7 |
8 |
9 |
用电量 y |
6 |
16 |
27 |
55 |
46 |
56 |
[备注说明] 此题目在计算之前,需要先剔除其中的无效数据 (7,55);
依照以下的几个层次的问题,逐步理解:
①能不能直接利用数据进行计算?
②能不能对数据先做预处理,即每一组数据都减去 (6,27)?
③能不能对数据先做预处理,即每一组数据都减去 (6,16)?
④能不能对数据先做预处理,即每一组数据都减去 (¯¯¯x,¯¯¯y)?
典例剖析
【对统计大数据的预处理】【2019 高三理科数学第二次月考第 18 题】
某地随着经济发展,居民收入逐年增长,下表是该地一建设银行连续五年的储蓄存款 (年底余额),如下表 1:
年份 x |
2011 |
2012 |
2013 |
2014 |
2015 |
储蓄存款 y(千亿元) |
5 |
6 |
7 |
8 |
10 |
为便于计算,将上表做以处理,令 t=x−2010,z=y−5,得到下表 2:
时间代号 t |
1 |
2 |
3 |
4 |
5 |
z |
0 |
1 |
2 |
3 |
5 |
附可能用到的公式:线性回归直线为 ˆy=ˆbx+ˆa,
ˆb=n∑i=1(xi−¯x)(yi−¯y)n∑i=1(xi−¯x)2=n∑i=1xiyi−n⋅¯x⋅¯yn∑i=1x2i−n⋅¯x2,
ˆa=¯y−ˆb⋅¯x.
(1) 求 z 关于 t 的线性回归方程。
分析:需要先注意 z→y,t→x,然后将所给的公式翻译为关于 z 和 t 的公式,这涉及到数学素养,公式的正向迁移。
由表格可知,¯t=3,¯z=2.2, 5∑i=1tizi=45, 5∑i=1t2i=55,
故 ˆb=n∑i=1tizi−n⋅¯t⋅¯zn∑i=1t2i−n⋅¯t2,
=45−5×3×2.255−5×9=1.2,
ˆa=¯z−ˆb⋅¯t=2.2−3×1.2=−1.4。
故 ^z=1.2t−1.4。
(2) 通过 (1) 中的方程,求出 y 关于 x 的线性回归方程。
分析:将 t=x−2010,z=y−5 代入 ^z=1.2t−1.4,
得到 y−5=1.2×(x−2010)−1.4,
即 ^y=1.2x−2408.4。
(3) 用所求的线性回归方程预测,到 2020 年底,该地的储蓄存款余额可达到多少?
分析:当 x=2020 时,代入 ^y=1.2x−2408.4,
得到 ^y=1.2×2020−2408.4=15.6(千亿元)。
【2017-18 高三理科高考冲刺模拟试题 9 第 15 题】已知由样本数据点集合 {(xi,yi)∣i=1,2,⋯,n} 求得的回归直线方程为 ^y=1.5x+0.5,且 ¯x=3,现发现两个数据点 (1.1,2.1) 和 (4.9,7.9) 误差较大,去除后重新求得的回归直线 l 的斜率为 1.2,那么,当 x=2 时,y 的估计值是______。
分析:由于样本中心点 (¯x,¯y) 必在回归直线上,先代入计算得到 ¯y=5,
即原数据的样本中心点为 (3,5),故 n∑i=1xi=3n,n∑i=1yi=5n,
由于 1.1+4.9=6,2.1+7.9=10,去除两个样本点后,
新的样本中心点的坐标 ¯x=3n−6n−2=3,¯y=5n−10n−2=5,
故新的样本中心点 (3,5) 必在回归直线 ^y=1.2x+b 上,
则有 5=1.2×3+b,则 b=1.4,
即重新求得的回归直线 l 为 ^y=1.2x+1.4;
当 x=2 时,代入计算得到 ^y=1.2×2+1.4=3.8。
法 2:特殊化策略,将样本数据点的个数认定为 5 个,其他的计算仿上完成。
【推荐】国内首个 AI IDE,深度理解中文开发场景,立即下载体验 Trae
【推荐】编程新体验,更懂你的 AI,立即体验豆包 MarsCode 编程助手
【推荐】抖音旗下 AI 助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
· winform 绘制太阳,地球,月球 运作规律
· AI与.NET技术实操系列(五):向量存储与相似性搜索在 .NET 中的实现
· 超详细:普通电脑也行Windows部署deepseek R1训练数据并当服务器共享给他人
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 上周热点回顾(3.3-3.9)