Loading [MathJax]/jax/output/CommonHTML/fonts/TeX/Math-BoldItalic.js

8.2 一元线性回归模型及其应用

【高分突破系列】 高二数学下学期同步知识点剖析精品讲义
soeasysoeasy

选择性必修第三册同步提高,难度 2 颗星!

模块导图

知识剖析

一元线性回归模型

xx 表示父亲身高,YY 表示儿子身高,ee 表示随机误差,假定随机误差 ee 的均值为 00,方差为与父亲身高无关的定值 σ2σ2,则它们之间的关系可以表示为

{Y=bx+a+eE(e)=0,D(e)=σ2{Y=bx+a+eE(e)=0,D(e)=σ2

我们称它为 YY 关于 xx 的一元线性回归模型.
 

线性回归方程

对于变量 xx 和变量 yy,设经过随机抽样获得的成对样本数据为 (x1,y1)(x1,y1) ,(x2,y2)(x2,y2),… ,(xn,yn)(xn,yn),其中 x1x1 ,x2x2,… ,xnxn y1y1y2y2,… ,ynyn 的均值分别为 ˉx¯x ˉy¯y,其中

{ˆb=ni=1(xiˉx)(yiˉy)ni=1(xiˉx)2=ni=1xiyinˉxˉyni=1(xiˉx)2ˆa=ˉybˉx⎪ ⎪⎪ ⎪^b=ni=1(xi¯x)(yi¯y)ni=1(xi¯x)2=ni=1xiyin¯x¯yni=1(xi¯x)2^a=¯yb¯x

我们将 ˆy=ˆbx+ˆa^y=^bx+^a 称为 YY 关于 xx 的经验回归方程,其图形称为经验回归直线,这种求经验回归方程的方法叫做最小二乘法.
线性回归直线经过定点 (ˉx,ˉy)(¯x,¯y).
 

残差分析

通过观测得到的数据称为观测值,通过经验回归方程得到的 ˆy^y 称为预测量,观测值减去预测值称为残差,残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判定原始数据是否存在可疑数据,这方面的工作称为残差分析.
通过观察残差图可以直观判断模型是否满足一元线性回归模型中对随机误差的假设,那残差应是均值为 00,方差为 σ2σ2 的随机变量的观测值.
 

比较模型的拟合效果

(i)(i) 残差平方和
残差平方和 Q=ni=1(yiˆy)2Q=ni=1(yi^y)2 越小,拟合效果越好.
(ii)(ii) 相关指数 R2R2

R2=1ni=1(yiˆy)2ni=1(yiˉy)2R2=1ni=1(yi^y)2ni=1(yi¯y)2

R2R2 越大,残差平方和 ni=1(yiˆy)2ni=1(yi^y)2 越小,模型拟合效果越好.
 

经典例题

【题型一】一元线性回归模型

【典题 1】 某服装品牌市场部门为了研究销售情况,统计了一段时间内该品牌不同服装的单价 xx(元) 和销售额 yy(元) 的数据,整理得到下面的散点图:
image.png
已知销售额 y=y= 单价 x×x× 销量 zz,根据散点图,下面四个回归方程类型中最适宜作为服装销量 zz 与单价 xx 的回归方程类型的是 (  )
A. z=a+bxz=a+bx B. z=a+bxz=a+bx C. z=a+bx2z=a+bx2 D. z=a+bexz=a+bex
【解析】 由散点图知,销售额 yy 与单价 xx 呈线性关系,不妨设 y=m+nxy=m+nx
所以 z=yx=m+nxx=mx+nz=yx=m+nxx=mx+n,与选项 BB 中的回归方程类型一致.
故选:BB
 

【典题 2】 已知由样本数据 (xi,yi)(i=1,2,3,,8)(xi,yi)(i=1,2,3,,8) 组成的一个样本,得到回归直线方程为 ˆy=2x0.4^y=2x0.4 ˉx=2¯x=2,去除两个歧义点 (2,7)(2,7) (2,7)(2,7) 后,得到新的回归直线的斜率为 33.则下列说法正确的是 (  )
A.相关变量 x,yx,y 具有正相关关系
B.去除歧义点后的回归直线方程为 ˆy=3x3.2^y=3x3.2
C.去除歧义点后,随 xx 值增加相关变量 yy 值增加速度变小
D.去除歧义点后,样本 (4,8.9)(4,8.9) 的残差为 0.10.1(附:^ei=yi^yiˆei=yiˆyi ̂)
【解析】 对选项 ABAB
ˉx=2¯x=2,代入 ˆy=2x0.4^y=2x0.4,得 ˉy=2×20.4=3.6¯y=2×20.4=3.6
((ˉx,ˉy)线ˆy=ˆbx+ˆa)((¯x,¯y)线^y=^bx+^a)
去除两个歧义点 (2,7)(2,7) (2,7)(2,7) 后,得到新的 ˉx=2×82+26=83¯x=2×82+26=83ˉy=3.6×87+76=4.8¯y=3.6×87+76=4.8
又得到新的回归直线的斜率为 33
新的线性回归方程的 ˆa=4.83×83=3.2ˆa=4.83×83=3.2
则去除两个歧义点后的线性回归方程为 ˆy=3x3.2^y=3x3.2,故 BB 正确;
((ˉx,ˉy)线ˆy=ˆbx+ˆaˆa)
又由斜率 3>0,相关变量 x,y 具有正相关关系,故 A 正确;
对选项 C
原本回归直线方程 ˆy=2x0.4 x 增加 1 y 增加 2,去除歧义点后,回归直线方程 ˆy=3x3.2 x 增加 1 y 增加 3,故去除歧义点后,随 x 值增加相关变量 y 值增加速度变大,故 C 错误;
对选项 D
x=4 时,ˆy=3×43.2=8.8,则去除歧义点后,样本 (4,8.9) 的残差为 8.98.8=0.1,故 D 正确.
故选:ABD
 

【典题 3】 2020 年的 “金九银十” 变成 “铜九铁十”,全国各地房价 “跳水” 严重,但某地二手房交易却 “逆市” 而行.下图是该地某小区 2019 年 12 月至 2020 年 12 月间,当月在售二手房均价 (单位:万元 / 平方米) 的散点图.(图中月份代码 1~13 分别对应 2019 年 12 月~2020 年 12 月)
image.png
根据散点图选择 y=a+bx y=c+dlnx 两个模型进行拟合,经过数据处理得到的两个回归方程分别为 ˆy=0.9369+0.0285x ˆy=0.9554+0.0306lnx,并得到以下一些统计量的值:
ˆy=0.9369+0.0285xˆy=0.9554+0.0306lnxR20.9230.973
注:ˉx 是样本数据中 x 的平均数,ˉy 是样本数据中 y 的平均数,则下列说法正确的是 (  )
A.当月在售二手房均价 y 与月份代码 x 呈负相关关系
B.由 ˆy=0.9369+0.0285x 预测 2021 年 3 月在售二手房均价约为 1.0509 万元 / 平方米
C.曲线 ˆy=0.9369+0.0285x ˆy=0.9554+0.0306lnx 都经过点 (ˉx,ˉy)
D.模型 ˆy=0.9554+0.0306lnx 回归曲线的拟合效果比模型 ˆy=0.9369+0.0285x
【解析】 由散点图可知,y x 的增加而增加,故 A 错误;
2021 年 3 月,相对 2019 年 12 月为 x=1,此时 x=16,代入 ˆy=0.9369+0.0285x,求得 1.0509,故 B 正确;
(xy)
曲线 ˆy=0.9369+0.0285x 经过点 (¯x,ˉy),曲线 ˆy=0.9554+0.0306lnx 经过点 (¯lnx,ˉy),故 C 错误;
((ˉx,ˉy)线ˆy=ˆbx+ˆa
y=a+bxy=c+dlnx线)
因为 0.973>0.923,所以模型 ˆy=0.9554+0.0306lnx 回归曲线的拟合效果比模型 ˆy=0.9369+0.0285x 的好,故 D 正确.
(R2)
故选:BD
 

巩固练习

1(★) 某校课外学习小组为研究某作物种子的发芽率 y 和温度 x(单位:°C) 的关系,由实验数据得到右面的散点图.由此散点图,最适宜作为发芽率 y 和温度 x 的回归方程类型的是 (  )
image.png
A. y=a+bx B. y=a+blnx C. y=a+bex D. y=a+bx2
 

2(★) 2020 年春季,新冠肺炎疫情在全球范围内相继爆发,因为政治制度、文化背景等因素的不同,各个国家疫情防控的效果具有明显差异.如图是西方某国在 60 天内感染新冠肺炎的累计病例人数 y(万人) 与时间 t(天) 的散点图,则下列最适宜作为此模型的回归方程的类型是 (  )
image.png
A. y=a+bx B. y=a+bx C. y=a+bex D. y=a+blnx
 

3(★) 对于一组具有线性相关关系的数据 (xiyi)(i=123n),根据最小二乘法求得回归直线方程为 ˆy=ˆbx+ˆa,则以下说法正确的是 (  )
A.预报变量 y 的值由解释变量 x 唯一确定
B.在回归分析中,R2=0.80 的模型比 R2=0.98 的模型拟合效果好
C.所有的样本点均落在回归直线 ˆy=ˆbx+ˆa
D.残差图中,残差点分布水平带状区域的宽度越窄,则回归方程的预报精确度越高
 

4(★) 某生物实验小组设计实验,得到光照强度 x 与某种植物光合作用速率 y 的一组数据 (xi,yi),经过分析提出了四种回归模型,①、②、③、④四种模型的残差平方和 ni=1(yi^yi)2 的值分别为 0.480.990.151.23,则拟合效果最好的是 (  )
A.模型① B.模型② C.模型③ D.模型④
 

5(★) AB 两个物理兴趣小组在实验室研究某粒子运动轨迹.共同记录到粒子的 13 个位置的坐标信息如表:
x0.930.820.770.610.550.330.270.100.420.580.640.670.76y0.260.410.450.450.600.670.680.710.640.550.550.530.46
A 小组根据表中数据,直接对 y,x 作线性回归分析,得到:
回归方程为 ˆy=0.5993x+0.005,相关指数 R2=0.4472
B 小组先将数据依变换 u=x2 ,v=y2 进行整理,再对 v,u 作线性回归分析,得到:
回归方程为 ˆv=0.5006u+0.4922,相关指数 R2=0.9375
根据统计学知识,下列方程中,最有可能是该粒子运动轨迹方程的是 (  )
A. 0.5993xy+0.005=0 B. 0.5006x+y0.4922=0
C. 0.5006x20.4922+y20.4922=1 D. x20.4922+0.5006y20.4922=1
 

6(★★) 【多选题】下列说法正确的是 (  )
A.在做回归分析时,残差图中残差点分布的带状区域的宽度越窄表示回归效果越差
B.某地气象局预报:6 月 9 日本地降水概率为 90%,结果这天没下雨,这表明天气预报并不科学
C.回归分析模型中,残差平方和越小,说明模型的拟合效果越好
D.在回归直线方程 ˆy=0.1x+10 中,当解释变量每增加 1 个单位时,预报变量多增加 0.1 个单位
 

7(★★) 【多选题】小明同学在做市场调查时得到如下样本数据
x13610y8a42
他由此得到回归直线的方程为 ˆy=2.1x+15.5,则下列说法正确的是 (  )
A.变量 x y 线性负相关
B.当 x=2 时可以估计 y=11.3
C.a=6
D.变量 x y 之间是函数关系
 

8(★★) 【多选题】已知由样本数据点集合 {(xiyi)|i=12n} 求得的线性回归方程为 ˆy=1.5x+0.5ˉx=3.现发现两个数据点 (1.83.8) (4.26.2) 的误差较大,去除这两个数据点后重新求得的回归直线 l 的斜率为 1.2,则下列说法中正确的有 (  )
A.去除这两个数据点前,当变量 x 每增加 1 个单位长度时,变量 y 减少 1.5 个单位长度
B.去除这两个数据点后的回归直线过点 (35)
C.去除这两个数据点后 y 的估计值的增长速度变慢
D.去除这两个数据点后,当 x=4 时,y 的估计值为 6.2
 

9(★) 已知样本点 (xiyi)(i=123n) 的回归直线方程为 ˆy=2x+a,若样本点 (r1) (1s) 的残差相同,则 s r 的关系式为 _ .(附:对于样本点 (xiyi) 的残差 ^ei=yi^yi)
 

10(★★) 下列说法:①分类变量 A B 的随机变量 K2 越大,说明 “A B 有关系” 的可信度越大,②以模型 y=cekx 去拟合一组数据时,为了求出回归方程,设 z=lny,将其变换后得到线性方程 z=0.3x+4,则 ck 的值分别是 e4 0.3,③在残差图中,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高,④若变量 x y 满足关系 y=0.1x+1,且变量 y z 正相关,则 x z 也正相关,正确的个数是 _
 

参考答案

  1. 【答案】B
    【解析】 由图知,散点图分布在一个对数函数的图象附近,因此最适合作为发芽率 y 和温度 x 的回归方程类型的是 y=a+blnx
    故选:B
  2. 【答案】C
    【解析】 函数图像随着自变量的变大,函数值增长速度越来越快,属于指数型函数的特征,只有选项 C 为指数型函数.
    故选:C
  3. 【答案】D
    【解析】 选项 A,预报变量由解释变量进行估计,即选项 A 错误;
    选项 B,相关系数 R2 越大,说明拟合效果越好,即选项 B 错误;
    选项 C,可能所有的样本点都不在回归直线上,即选项 C 错误;
    选项 D,在残差图中,残差点分布水平带状区域的宽度越窄,则回归方程的预报精确度越高,即选项 D 正确.
    故选:D
  4. 【答案】C
    【解析】 残差平方和越小,表示该模型的拟合效果越好,比较四种模型的残差平方和,可知模型③的最小,所以其拟合效果最好.
    故选:C
  5. 【答案】C
    【解析】 由统计学知识可知,R2 越大,拟合效果越好,
    A 小组的相关指数 R2=0.4472B 小组的相关指数 R2=0.9375
    B 组的拟合效果好,则回归方程为 ˆv=0.5006u+0.4922
    u=x2,v=y2y2=0.5006x2+0.4922
    0.5006x20.4922+y20.4922=1
    故选:C
  6. 【答案】CD
    【解析】 对于 A,可用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适.带状区域的宽度越窄,说明模型的拟合精度越高.故 A 错误;
    对于 B,6 月 9 日本地降水概率为 90%,只是表明下雨的可能性是 90%,有可能这天不下雨,不能说明天气预报并不科学,故 B 错误;
    在回归分析模型中,残差平方和越小,说明模型的拟合效果越好,故 C 正确;
    在回归直线方程 ˆy=0.1x+10 中,当解释变量 x 每增加 1 个单位时,预报变量 ˆy 增加 0.1 个单位,故 D 正确.
    故选:CD
  7. 【答案】ABC
    【解析】 由回归直线的方程为 ˆy=2.1x+15.5,可知变量 x y 线性负相关,故 A 正确;
    x=2 时,ˆy=2.1×2+15.5=11.3,故 B 正确;
    ˉx=1+3+6+104=5ˉy=8+a+4+24=14+a4
    样本点的中心坐标为 (5,14+a4)
    代入 ˆy=2.1x+15.5,得 14+a4=2.1×5+15.5,解得 a=6,故 C 正确;
    变量 x y 之间具有线性负相关关系,不是函数关系,故 D 错误.
    故选:ABC
  8. 【答案】BCD
    【解析】 去掉两个数据点 (1.83.8) (4.26.2) 之前,ˆy=1.5x+0.5
    所以 x 每增加 1 个单位,y 增加 1.5 个单位,故选项 A 错误;
    去掉两个数据点 (1.83.8) (4.26.2) 之前,
    回归方程过 (ˉx,ˉy),则 ˉy=1.5×3+0.5=5
    而去掉的 2 个点 ˉx=1.8+4.22=3ˉy=3.8+6.22=5
    所以去掉后的 ˉx,ˉy 没有变化,
    故去除这两个数据点后的回归直线过点 (35),故选项 B 正确;
    去掉两个数据点后,回归方程的斜率由 1.5 变为 1.2
    故去除这两个数据点后 y 的估计值的增长速度变慢,故选项 C 正确;
    去掉两个数据点后,得到样本的中心为 (35),则有 5=1.2×3+a,解得 a=1.4,故回归方程变为 y=1.2x+1.4
    x=4 时,y=1.2×4+1.4=6.2,故选项 D 正确.
    故选:BCD
  9. 【答案】s=32r
    【解析】 回归直线方程为 ˆy=2x+a,样本点 (r1) (1s) 的残差相同,
    1(2r+a)=s(2+a),即 s=32r
    故答案为:s=32r
  10. 【答案】3
    【解析】 对于①,根据独立性原理知,分类变量 A B 的随机变量 K2 越大,说明 “A B 有关系” 的可信度越大,①正确;
    对于②,根据回归模型和对数的运算性质知,以模型 y=cekx 去拟合一组数据时,为了求出回归方程,
    z=lny,将其变换后得到线性方程 z=0.3x+4,则 ck 的值分别是 e4 0.3,所以②正确;
    对于③,利用残差分析模型拟合效果时,在残差图中,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高,所以③正确;
    对于④,若变量 x y 满足关系 y=0.1x+1,且变量 y z 正相关,则 x z 是负相关,所以④错误.
    综上知,正确命题的序号是①②③,共 3 个.
    故答案为:3
     

【题型二】 一元线性回归模型的应用

【典题 1】 某产品的宣传费用 x(单位:万元) 与销售额 y(单位:万元) 的统计数据如表所示:
x45678y608090100120
根据上表可得回归方程 ˆy=14x+ˆa,则宣传费用为 9 万元时,销售额最接近 (  )
A.123 万元 B.128 万元 C.133 万元 D.138 万元
【解析】 ˉx=15(4+5+6+7+8)=6ˉy=15(60+80+90+100+120)=90
因为回归直线经过样本中心,所以 90=14×6+ˆaˆa=6
所以回归直线方程:ˆy=14x+6
x=9 时,ˆy=14×9+6=132
故选:C
 

【典题 2】 一研学实践活动小组利用课余时间,对某公司 1 至 5 月份销售某种产品的销售量及销售单价进行了调查,月销售单价 x(单位:元) 和月销售量 y(单位:百件) 之间的一组数据如表所示:
 月份 i12345 月销售单价 xi( 元 )1.61.822.22.4 月销售量 yi (百件) 108764
(1) 根据 1 至 5 月份的数据,求出 y 关于 x 的回归直线方程;
(2) 预计在今后的销售中,月销售量与月销售单价仍然服从 (1) 中的关系,若该种产品的成本是 1 元 / 件,那么该产品的月销售单价应定为多少元,才能获得最大月利润?(注:利润 = 销售收入 - 成本)
附:回归直线方程 ˆy=ˆbx+ˆa,其中 ˆb=ni=1xiyinˉxˉyni=1x2inˉx2,ˆa=ˉyˆbˉx
参考数据:5i=1xiyi=67.2,5i=1x2i=20.4
【解析】 (1)ˉx=1.6+1.8+2+2.2+2.45=2ˉy=10+8+7+6+45=7
ˆb=ni=1xiyin¯xyni=1x2inˉx2=67.25×2×720.45×4=7ˆa=ˉyˆbˉx=7+7×2=21
回归直线方程为 ˆy=7x+21
(2) 设该产品的月销售单价为 x 元,月利润为 z 百元,则
z=(x1)yz=(x1)(7x+21)=7x2+28x21=7(x2)2+7
x=2 时,Zmax=7(百元).
该产品的月销售单价应定为 2 元才能获得最大月利润为 7 百元.
 

【典题 3】 某同学使用某品牌暖水瓶,其内胆规格如图所示.若水瓶内胆壁厚不计,且内胆如图分为①②③④四个部分,它们分别为一个半球、一个大圆柱、一个圆台和一个小圆柱体,若其中圆台部分的体积为 52πcm3,且水瓶灌满水后盖上瓶塞时水溢出 10π3 cm3.记盖上瓶塞后,水瓶的最大盛水量为 V.
(1) 求 V
(2) 该同学发现:该品牌暖水瓶盛不同体积的热水时,保温效果不同.为了研究保温效果最好时暖水瓶的盛水体积,做以下实验:把盛有最大盛水量 V 的水的暖水瓶倒出不同体积的水,并记录水瓶内不同体积水在不同时刻的水温,发现水温 y(单位:℃) 与时刻 t 满足线性回归方程 y=ct+d,通过计算得到如表:
 倒出体积 xcm30306090120 拟合结果 y=c1t+dy=c2t+dy=c3t+dy=c4t+dy=c5t+d 倒出体积 xcm3150180210450 拟合结果 y=c6t+dy=c7t+dy=c8t+dy=c16t+d
注:表中倒出体积 x(单位:cm3) 是指从最大盛水量中倒出的那部分水的体积.其中:
C1C2C3C4C5C6C71.41.31.211.10.90.8
w=|c|,wi=|ci|xi=30(i1) ,i=1,2,,16.对于数据 (xi,wi)(i=1,2,,7),可求得回归直线为 L1w=βx+α,对于数据 (xi,wi)(i=8,9,,16),可求得回归直线为 L2w=0.0009x+0.7
(i) 指出 |c| 的实际意义,并求出回归直线 L1 的方程 (参考数据:928000.0032)
(ii) L1 L2 的交点横坐标即为最佳倒出体积,请问保温瓶约盛多少体积水时 (盛水体积保留整数,且 π 3.14) 保温效果最佳?
附:对于一组数据 (u1,v1) ,(u2,v2) ,… ,(un,vn),其回归直线 v=ˆβu+ˆα 中的斜率和截距的最小二乘估计分别为 ˆβ=ni=1(uiˉu)(viˉv)ni=1(uiˉu)2ˆα=ˉvˆβˉu
image.png
【解析】 (1) 依题意得,半球的半径为 r=5cm,体积为 V1=12×43×125π=2503πcm3
大圆柱体积 V2=25π×20=500πcm3,小圆柱体积 V3=4π×2=8πcm3
盖上瓶塞后,水瓶的最大盛水量为 2503π+500π+8π+52π103π=640πcm3
(2)(i)|c| 的实际意义为倒出 xcm3 体积水时,暖水瓶内水的降温速率;
|c| 越小,降温速率越小,保温效果越好;|c| 越大,降温速率越大,保温效果越差;
xi=30(i1) ,i=1,2,,7,对于回归直线 L1ω=βx+α
ˉx=x1+x2++x77=90ˉω=ω1+ω2++ω77=1.1
7i=1(xiˉx)(ωiˉω)=817i=1(xiˉx)=25200
ˆβ=ni=1(xiˉx)(ωiˉω)ni=1(xiˉx)2=8125200=928000.0032
ˆα=ˉωˆβˉx=1.1+0.0032×90=1.388
回归直线 L1 的方程为 ω=0.0032x+1.388
(ii) 联立 {ω=0.0032x+1.388ω=0.0009x+0.7,得 x167.8
保温瓶最佳倒出体积约为 167.8cm3
保温瓶盛水体积约为 640π167.8640×3.14167.8=1841.8cm3
保温瓶盛水体积约为 1841.8cm3 时保温效果最佳.
【点拨】
① 处理这些实际问题,理解题景与梳理每个变量之间的关系尤为重要.
② 若题中没给到对应的数据,需要笔算,此时注意数据的对应关系避免用错数据出现运算失误,若在草稿纸上能列个表格会清晰很多.
 

【典题 4】 近年来,随着汽车消费的普及,二手车流通行业得到迅猛发展.某汽车交易市场对 2017 年成交的二手车的交易前的使用时间 (以下简称 “使用时间”) 进行统计,得到如图 1 所示的频率分布直方图.在图 1 对使用时间的分组中,将使用时间落入各组的频率视为概率.
image.png
(1) 若在该交易市场随机选取 3 辆 2017 年成交的二手车,求恰有 2 辆使用年限在 (8,16] 的概率;
(2) 根据该汽车交易市场往年的数据,得到图 2 所示的散点图,其中 x(单位:年) 表示二手车的使用时间,y(单位:万元) 表示相应的二手车的平均交易价格.
①由散点图判断,可采用 y=ea+bx 作为该交易市场二手车平均交易价格 y 关于其使用年限 x 的回归方程,相关数据如下表 (表中 Yi=lnyiˉY=11010i=1Yi):
ˉxˉyˉY10i=1xiyi10i=1xiYi10i=1xi25.58.71.9301.479.75385
试选用表中数据,求出 y 关于 x 的回归方程;
②该汽车交易市场拟定两个收取佣金的方案供选择.
甲:对每辆二手车统一收取成交价格的 5% 的佣金;
乙:对使用 8 年以内 (含 8 年) 的二手车收取成交价格的 4% 的佣金,对使用时间 8 年以上 (不含 8 年) 的二手车收取成交价格的 10% 的佣金.
假设采用何种收取佣金的方案不影响该交易市场的成交量,根据回归方程和图表 1,并用各时间组的区间中点值代表该组的各个值.判断该汽车交易市场应选择哪个方案能获得更多佣金.
附注:
①对于一组数据 (u1,v1) ,(u2,v2),… ,(un,vn),其回归直线 v=α+βu 的斜率和截距的最小二乘估计分别为 ˆβ=ni=1(uiˉu)(viˉv)ni=1(uiˉu)2,ˆα=ˉvˆβˉu.
②参考数据:e2.9519.1,e1.755.75,e0.551.73,e0.650.52,e1.850.16
【解析】 (1) 由频率分布直方图知,该汽车交易市场 2017 年成交的二手车使用时间在 (8,12] 的频率为 0.07×4=0.28,使用时间在 (12,16] 的频率为 0.03×4=0.12
所以在该汽车交易市场 2017 年成交的二手车随机选取 1 辆,其使用时间在 (816] 的概率为 0.28+0.12=0.4
所以所求的概率为 P=C230.42(10.4)=0.288
(2)①由 y=ea+bx lny=a+bx,则 Y 关于 x 的线性回归方程为 Y=a+bx
(线线)
由于 ˆb=10i=1(xiˉx)(YiˉY)10i=1(xiˉx)2=10i=1xiYi10ˉxˉY10i=1x2i10ˉx2=79.7510×5.5×1.938510×5.52=0.3
(10i=1(xiˉx)(YiˉY)10i=1(xiˉx)210i=1(xiˉx)(YiˉY)10i=1(xiˉx)2=10i=1xiYi10ˉxˉY10i=1x2i10ˉx2)
ˆα=ˉYˆβˉx=1.9(0.3)×5.5=3.55
Y 关于 x 的线性回归方程为 ˆY=3.550.3x
所以 y 关于 x 的回归方程为 ˆy=e3.550.3x
②根据频率分布直方图和①中的回归方程,对成交的二手汽车可预测:
使用时间在 (0 ,4] 的频率为 0.05×4=0.2
对应的成交价格的预测值为 e3.550.3×2=e2.9519.1
(2)
使用时间在 (4,8] 的频率为 0.09×4=0.36
对应的成交价格预测值为 e3.550.3×6=e1.755.75
使用时间在 (8,12] 的频率为 0.07×4=0.28
对应的成交价格的预测值为 e3.550.3×10=e0.551.73
使用时间在 (12,16] 的频率为 0.03×4=0.12
对应的成交价格的预测值为 e3.550.3×14=e0.650.52
使用时间在 (16,20] 的频率为 0.01×4=0.04
对应的成交价格的预测值为 ye3.550.3×18=e1.850.16
若采用甲方案,预计该汽车交易市场对于成交的每辆车可获得的平均佣金为
(0.2×19.1+0.36×5.75+0.28×1.73+0.12×0.52+0.04×0.16)×5%
=0.321660.32 万元;
若采用乙方案,预计该汽车交易市场对于成交的每辆车可获得的平均佣金为
(0.2×19.1+0.36×5.75)×4%+(0.28×1.73+0.12×0.52+0.04×0.16)×10%
=0.290920.29(万元);
因为 0.32>0.29,所以采用甲方案能获得更多佣金.
【点拨】
① 熟悉非一元线性回归模型变换为一元线性回归模型的基本套路;
② 对题中给予的数据,要认真梳理清楚,明确每个变量的实际意义,有些数据是 “搅乱视听” 的,比如题中的 ˉy=8.7.
 

巩固练习

1(★) 设一个线性回归方程 ˆy=3+1.2x,当变量 x 每增加一个单位时,则 y 的变化情况正确的是 (  )
A.y 平均增加约 1.2 个单位
B.y 平均增加约 3 个单位
C.y 平均减少约 1.2 个单位
D.y 平均减少约 3 个单位
 

2(★) 某运动制衣品牌为了成衣尺寸更精准,现选择 15 名志愿者,对其身高和臂展进行测量 (单位:厘米),左图为选取的 15 名志愿者身高与臂展的折线图,右图为身高与臂展所对应的散点图,并求得其回归方程为 ˆy=1.16x30.75,以下结论中不正确的为 (  )
image.png
A.15 名志愿者身高的极差小于臂展的极差
B.15 名志愿者身高和臂展成正相关关系
C.可估计身高为 190 厘米的人臂展大约为 189.65 厘米
D.身高相差 10 厘米的两人臂展都相差 11.6 厘米
 

3(★★) 【多选题】 5G 技术的运营不仅提高了网络传输速度,更拓宽了网络资源的服务范围.目前,我国加速了 5G 技术的融合与创新,前景美好!某手机商城统计了 5 个月的 5G 手机销量,如表所示:
 月份 2020 年 6 月 2020 年 7 月 2020 年 8 月 2020 年 9 月 2020 年 10 月  月份编号 x12345 销量 y/ 部 5295a185227
y x 线性相关,由上表数据求得线性回归方程为 ˆy=44x+10,则下列说法正确的是 (  )
A.5G 手机的销量逐月增加,平均每个月增加约 10
B.a=151
C.y x 正相关
D.预计 12 月份该手机商城的 5G 手机销量约为 318
 

4(★★) 已知某品牌的新能源汽车的使用年限 x(单位:年) 与维护费用 y(单位:千元) 之间有如下数据:
 使用年限 x 单位:年) 24568 维护费用 y (单位:千元) 34.56.57.59
x y 之间具有线性相关关系,且 y 关于 x 的线性回归方程为 ˆy=1.05x+ˆa.据此估计,当使用年限为 7 年时,维护费用约为 _ 千元.
附:线性回归方程 ˆy=ˆbx+ˆa 中的系数,ˆb=ni=1(xiˉx)(yiˉy)ni=1(xiˉx)2 ,ˆa=ˉyˆbˉx
 

5(★★) 科研人员在研制新冠肺炎疫苗过程中,利用小白鼠进行接种试验,现收集了小白鼠接种时的用药量 x(单位:毫克) 和有效度 y 的 7 组数据,得到如下散点图及其统计量的值:
ˉxˉyˉω7i=1(xiˉx)27i=1(ωiˉω)27i=1(ωiˉω)(yiˉy)2.713.410.51825486.4
其中 ωi=x2iˉω=177i=1ωi
(Ⅰ) 根据散点图判断,y=a+bx y=c+dx2 哪一个更适合作为有效度 y 与用药量 x 的回归方程类型?(给出判断即可,不必说明理由)
(Ⅱ) 根据 (Ⅰ) 的判断结果及表中数据建立 y 关于 x 的回归方程.
(Ⅲ) 若要使有效度达到 75,则用药量至少为多少毫克?
image.png
 
 
 

6(★★★) 网上购物就是通过互联网检索商品信息,并通过电子订购单发出购物请求,厂商通过邮购的方式发货或通过快递公司送货上门,货到后通过银行转账、微信或支付宝支付等方式在线汇款.根据 2019 年中国消费者信息研究,超过 40% 的消费者更加频繁地使用网上购物,使得网上购物和送货上门的需求量激增,越来越多的消费者也首次通过第三方 APP、品牌官方网站和微信社群等平台进行购物.某天猫专营店统计了 2020 年 8 月 5 日至 9 日这 5 天到该专营店购物的人数 y 和时间第 x,天间的数据,列表如表:
xi12345yi75849398100
(1) 由表中给出的数据是否可用线性回归模型拟合人数 y 与时间 x 之间的关系?若可用,估计 8 月 10 日到该专营店购物的人数 (人数用四舍五入法取整数;若 |r|>0.75,则线性相关程度很高,可用线性回归模型拟合,计算 r 时精确到 0.01).
参考数据:434065.88
附:相关系数 r=ni=1(xiˉx)(yiˉy)ni=1(xiˉx)2ni=1(yiˉy)2
回归直线方程的斜率:ˆb=ni=1(xiˉx)(yiˉy)ni=1(xiˉx)2ˆa=ˉyˆbˉx
(2) 运用分层抽样的方法从第 1 天和第 5 天到该专营店购物的人中随机抽取 7 人,再从这 7 人中任取 3 人进行奖励,求这 3 人取自不同天的概率;
(3) 该专营店为了吸引顾客,推出两种促销方案:
方案一,购物金额每满 100 元可减 10 元;
方案二,一次性购物金额超过 800 元可抽奖三次,每次中奖的概率均为 13,且每次抽奖互不影响,中奖一次打 9 折,中奖两次打 8 折,中奖三次打 6 折.
某顾客计划在此专营店购买 1000 元的商品,请从实际付款金额的数学期望的角度分析选哪种方案更优惠.
 
 
 

7(★★★) 中国茶文化博大精深,茶水的口感与茶叶类型以及水温有关.经验表明,若某种绿茶用 85℃的水泡制,等到茶水温度降至 60℃时饮用,则口感最佳.某研究小组通过测量 (室温恒为 20℃),到下面的表格及散点图:
 泡制时间 x/min01234 水温 y/C8579747165
(1) 小组成员根据散点图并考虑茶水温度降到室温 (即 20℃) 就不能再降的事实,决定选择函数模型 y=kcx+20(x0) 来表示 x y 的关系.
①令 z=ln(y20),求出 z 关于 x 的线性回归方程;
②利用①的结论,求出 y=kcx+20(x0) 中的 k c 的值.
(2) 你认为该品种绿茶用 85℃的水泡制多久后饮用,口感最佳?
参考数据:ln654.2ln594.1ln544.0ln513.9ln453.8log0.90.64.8e0.10.9e4.266.7,4006670.6
参考公式:线性回归方程 ˆy=ˆbx+ˆa 中,ˆb=ni=1(xiˉx)(yiˉy)ni=1(xiˉx)2ˆa=ˉyˆbˉx
image.png
 
 
 

参考答案

  1. 【答案】A
    【解析】 直线回归方程为 ˆy=3+1.2x
    变量 x 增加一个单位时,函数值要平均增加 1.2 个单位,
    故选:A
  2. 【答案】D
    【解析】 对于 A,身高极差大约是 25,臂展极差大于等于 30,故 A 正确;
    对于 B,很明显根据散点图以及回归方程得到,身高矮展臂就会短一些,身高高一些,
    展臂就会长一些,故 B 正确;
    对于 C,身高为 190 厘米,代入回归方程可得展臂等于 189.65 厘米,但不是准确值,故 C 正确;
    对于 D,身高相差 10 厘米的两人展臂的估计值相差 11.6 厘米,但不是准确值,
    回归方程上的点并不都是准确的样本点,故 D 错误;
    故选:D
  3. 【答案】BCD
    【解析】 线性回归方程为 ˆy=44x+10,5G 手机的销量逐月增加,平均每个月增加约 44 台,所以 A 不正确;
    根据表中数据,可得 ˉx=1+2+3+4+55=3ˉy=44×3+10=142
    于是,52+95+a+185+227=142×5=710,即 a=151,故 B 正确;
    由回归方程中 x 的系数大于 0,可知 y x 正相关,且相关系数 r>0,故 C 正确;
    12 月份时,x=7ˆy=44×7+5=318 部,故 D 正确.
    故选:BCD
  4. 【答案】8.2
    【解析】 由题意,ˉx=2+4+5+6+85=5ˉy=3+4.5+6.5+7.5+95=30.55=6.1
    因为回归直线经过样本中心,所以 6.1=1.05×5+ˆa,解得 ˆa=0.85
    ˆy=1.05x+0.85
    当使用年限为 7 年时,维护费用约为 1.05×7+0.85=8.2 千元.
  5. 【答案】(1)y=c+dx2(2)y=3.4+1.6x2(3)7
    【解析】 (Ⅰ)y=c+dx2 更适合作为有效度 y 与用药量 x 的回归方程类型.
    (Ⅱ) 令 ωi=x2i,则 y=c+dω
    ˆd=7i=1(ωiˉω)(yiˉy)7i=1(ωiˉω)2=86.454=1.6ˆc=ˉydˉω=13.41.6×10.5=3.4
    ˆy=3.4+1.6ω
    y 关于 x 的回归方程为 ˆy=3.4+1.6x2
    (Ⅲ) 当 ˆy=75 时,有 75=3.4+1.6x2,解得 x=7
    故要使有效度达到 75,则用药量至少为 7 毫克.
  6. 【答案】1109 267 3 选项方案二更划算
    【解析】 (1) 由表中的数据可得,ˉx=3ˉy=90
    5i=1(xiˉx)2=105i=1(yiˉy)=4345i=1(xiˉx)(yiˉy)=64
    r=ni=1(xiˉx)(yiˉy)ni=1(xiˉx)2ni=1(yiˉy)2=6443400.97>0.75
    所以变量 y x 具有很强的线性相关性,
    故可以用线性回归模型拟合人数 y 与天数 x 之间的关系,
    所以 ˆb=ni=1(xiˉx)(yiˉy)ni=1(xiˉx)2=6410=6.4ˆa=ˉyˆbˉx=906.4×3=70.8
    所以 ˆy=6.4x+70.8
    x=6,则有 ˆy=109.2
    故 8 月 10 日到该专营店购物的人数为 109 人;
    (2) 因为 75100=34
    所以第 1 天和第 5 天取的人数分别为 3 人和 4 人,
    3 人取自不同天的种数为 C13C24+C23C14
    故概率为 P=C13C24+C23C14C37=67
    (3) 若选方案一,则需付款 1000100=900 元,
    若选方案二,设需付款 X 元,则 X 的可能取值为 6008009001000
    相应的概率为 P(X=600)=C33(13)3=127P(X=800)=C23×(13)2×23=627
    P(X=900)=C13×13×(23)2=1227P(X=1000)=C03×(23)3=827
    所以 E(X)=600×127+800×627+900×1227+1000×827=2420027<900
    故选项方案二更划算.
  7. 【答案】(1) ˆz=0.1x+4.2 c=0.9,k=66.7 (2) 4.8min
    【解析】 (1)①由已知得出 x z 的关系,如下表:
     泡制时间 x/min01234Z4.24.14.03.93.8
    设线性回归方程 ˆz=ˆbx+ˆa
    由题意,得 ˉx=2,ˉz=4
    5i=1(xiˉx)(ziˉz)=(2)×0.2+(1)×0.1+1×(0.1)+2×(0.2)=1
    5i=1(xiˉx)2=(2)2+(1)2+12+22=10
    ˆb=5i=1(xiˉx)(ziˉz)5i=1(xiˉx)2=110=0.1
    ˆa=ˉzˆbˉx=4+0.1×2=4.2
    z 关于 x 的线性回归方程为 ˆz=0.1x+4.2
    ②由 y=kcx+20(x0),得 y20=kcx(x0)
    两边取对数得,ln(y20)=lnk+xlnc
    利用①的结论得:lnc=0.1,lnk=4.2
    c=e0.10.9,k=e4.266.7
    (2) 由 (1) 得,y=66.7×0.9x+20(x0)
    y=60,得 xlog0.90.64.8
    该品种绿茶用 85℃的水泡制 4.8min 后饮用,口感最佳.
posted @   贵哥讲数学  阅读(2496)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 【自荐】一款简洁、开源的在线白板工具 Drawnix
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 无需6万激活码!GitHub神秘组织3小时极速复刻Manus,手把手教你使用OpenManus搭建本
· C#/.NET/.NET Core优秀项目和框架2025年2月简报
· DeepSeek在M芯片Mac上本地化部署
//更改网页ico // 实现数学符号与汉字间有间隙 //文章页加大页面,隐藏侧边栏
点击右上角即可分享
微信分享提示