9.2.4 总体离散程度的估计
${\color{Red}{欢迎到学科网下载资料学习 }}$
[ 【基础过关系列】高一数学同步精品讲义与分层练习(人教A版2019)]
(https://www.zxxk.com/docpack/2921718.html)
\({\color{Red}{ 跟贵哥学数学,so \quad easy!}}\)
必修第二册同步巩固,难度2颗星!
基础知识
极差的概念
一组数据中,极差等于最大值减去最小值.它在一定程度上刻画了数据的离散程度,但因为只使用最大值和最小值,所以所含的信息量很少.
方差,标准差的概念
(1)假设一组数据是\(x_1\),\(x_2\),…,\(x_n\),用\(\bar{x}\)表示这组数据的平均数,我们称
这组数据的方差,为了计算方便也可以用\(\dfrac{1}{n} \sum_{i=1}^n x_i^2-\bar{x}^2\),
标准差是 \(S=\sqrt{\dfrac{1}{n} \sum_{i=1}^n\left(x_i-\bar{x}\right)^2}\).
证明 \(S^2=\dfrac{1}{n} \sum_{i=1}^n\left(x_i-\bar{x}\right)^2=\dfrac{1}{n} \sum_{i=1}^n x_i^2-\bar{x}^2\)
证明 \(S^2=\dfrac{1}{n} \sum_{i=1}^n\left(x_i-\bar{x}\right)^2=\dfrac{1}{n} \sum_{i=1}^n\left(x_i^2-2 \bar{x} \cdot x_i+\bar{x}^2\right)\)
\(=\dfrac{1}{n}\left(\sum_{i=1}^n x_i^2-2 \bar{x} \cdot \sum_{i=1}^n x_i+\sum_{i=1}^n \bar{x}^2\right)=\dfrac{1}{n}\left(\sum_{i=1}^n x_i^2-2 \bar{x} \cdot n \bar{x}+n \bar{x}^2\right)\)
\(=\dfrac{1}{n}\left(\sum_{i=1}^n x_i^2-2 n \bar{x}^2+n \bar{x}^2\right)=\dfrac{1}{n}\left(\sum_{i=1}^n x_i^2-n \bar{x}^2\right)=\dfrac{1}{n} \sum_{i=1}^n x_i^2-\bar{x}^2\).
方差、标准差的意义
方差越大,表明数据波动越大,越不稳定;方差越小,表明数据波动越小,越稳定.
解释
我们要研究数据的波动幅度,可看各数值离平均数的“距离”,故可想到 \(\dfrac{1}{n} \sum_{i=1}^n\left|x_i-\bar{x}\right|\),但为了避免式中含绝对值,通常用平方来代替,即 \(\dfrac{1}{n} \sum_{i=1}^n\left(x_i-\bar{x}\right)^2\) .
基本方法
【题型1】 求方差的概念
【典题1】某省射击队准备在甲、乙两名射击运动员中选拔一名运动员去参加“全国运动会”,他们两人共进行了\(6\)轮射击选拔赛,得到的成绩数据如下(单位:环).
甲:\(86\),\(89\),\(92\),\(88\),\(90\),\(95\);
乙:\(82\),\(94\),\(92\),\(96\),\(87\),\(89\).
(1)分别计算甲、乙两名射击运动员每轮选拔赛成绩的平均数;
(2)通过计算,请你说明派哪名运动员去参加“全国运动会”比较合适,说明理由.
解析 (1)由题中数据可求得:
\(\overline{x_{\text {甲 }}}=\dfrac{1}{6} \times(86+89+92+88+90+95)=90\),
\(\overline{x_{\text {乙 }}}=\dfrac{1}{6} \times(82+94+92+96+87+89)=90\),
所以甲的平均数是\(90\),乙的平均数也是\(90\);
(2)甲的方差为: \(s_{\text {甲 }}^2=\dfrac{1}{6} \times\left[(86-90)^2+(89-90)^2+(92-90)^2+(88-90)^2\right.\)\(\left.+(90-90)^2+(95-90)^2\right]=\dfrac{25}{3}\),
乙的方差为:
\(s_{\text {乙 }}^2=\dfrac{1}{6} \times\left[(82-90)^2+(94-90)^2+(92-90)^2+(96-90)^2 \right.\)\(\left.+(87-90)^2+(89-90)^2\right]=\dfrac{65}{3}\),
可知: \(\overline{x_{\text {甲 }}}=\overline{x_{\text {乙 }}}\), \(s_{\text {甲 }}^2<s_{\text {乙 }}^2\),
说明两名运动员的平均成绩相同,但是甲的方差小,说明甲成绩稳定,所以派甲运动员去参加“全国运动会”比较合适.
【典题2】一组数据的方差为\(S^2\),将这组数据中的每个数都乘以\(2\),所得的一组新数据的标准差为 \(\underline{\quad \quad}\) .
解析设该组数据为\(x_1\),\(x_2\),…,\(x_n\),则设其平均数为\(\bar{x}\);若将每个数据都乘以\(2\),则有\(2x_1\),\(2x_2\),\(2x_3\),…,\(2x_n\),则其平均数为\(2\bar{x}\).
于是原数据方差为: \(S^2=\dfrac{1}{n}\left[\left(x_1-\bar{x}\right)^2+\left(x_2-\bar{x}\right)^2+\cdots+\left(x_n-\bar{x}\right)^2\right]\),
新数据方差为: \(\dfrac{1}{n}\left[\left(2 x_1-2 \bar{x}\right)^2+\left(2 x_2-2 \bar{x}\right)^2+\cdots+\left(2 x_n-2 \bar{x}\right)^2\right]=4 S^2\).
故新数据的标准差为\(2S\).
点拨 若一组数据\(x_1\),\(x_2\),…,\(x_n\)的平均数是\(\bar{x}\),方差是\(S^2\),则另一组数据\(ax_1+b\),\(ax_2+b\),…,\(ax_n+b\)的平均数是\(a\bar{x}+b\),方差是\(a^2 S^2\),利用平均数和方差的定义便可证明.
【典题3】某班共有\(45\)名同学,在某次满分为\(100\)分的测验中,得分前\(15\)名同学的平均分为\(90\)分,标准差为\(\sqrt{3}\),后\(30\)名同学的平均分为\(72\)分,标准差为\(\sqrt{6}\).(得分均为整数)
(1)求全班同学成绩的平均分;
(2)求全班同学成绩的方差;
(3)能否下“全班同学全都及格了”的结论?说明理由.(达到\(60\)分及以上为及格).
解析 (1)该班\(45\)人分成两组,
这两组的平均分分别是\(90\),\(72\);
\(\therefore\)全班的平均分是 \(\dfrac{1}{45} \times(90 \times 15+72 \times 30)=78\),
(2) \(s_1=\sqrt{3}\), \(\therefore s_1^2=\dfrac{1}{15} \times\left[\left(x_1^2+x_2^2+\cdots+x_{15}^2\right)-15 \times 90^2\right]=3\),
\(\therefore x_1^2+x_2^2+\cdots+x_{15}^2=45+15 \times 8100=121545\);
\(s_2=\sqrt{6}\), \(x_{16}^2+x_{17}^2+\cdots+x_{45}^2=180+30 \times 72^2=155700\);
\(\therefore\)全班的方差是
\(s^2=\dfrac{1}{45}\left[\left(x_1^2+x_2^2+\cdots+x_{45}^2\right)-45 \times 78^2\right]\)\(=\dfrac{1}{45} \times[(121545+155700)-273780]=77\);
(3)假设有一个\(59\)分的同学,则它与平均分\(78\)的差的平方为\(361\),与平均分\(72\)的差的平方为\(169\),经比较知,这是完全可能的;
所以,不能说“全班同学全都及格了”的结论.
假设说“全班同学全都及格了”,
则得分前\(15\)名同学的平均分为\(90\)分,标准差为\(\sqrt{3}\),方差为\(3\);
后\(30\)名同学的平均分为\(72\)分,标准差为\(\sqrt{6}\),方差为\(6\);这完全是有可能.
点拨 求方差,为了计算方便也可以用 \(\dfrac{1}{n} \sum_{i=1}^n x_i^2-\bar{x}^2\).
【巩固练习】
1.国家射击运动员甲在某次训练中\(10\)次射击成绩(单位:环)如下:\(7\),\(5\),\(9\),\(7\),\(4\),\(8\),\(9\),\(9\),\(7\),\(5\),则下列关于这组数据说法不正确的是( )
A.众数为\(7\)和\(9\) \(\qquad \qquad\) B.方差为\(s^2=3\) \(\qquad \qquad\) C.平均数为\(7\) \(\qquad \qquad\) D.第\(70\)百分位数为\(8\)
2.已知\(x_1\),\(x_2\),\(x_3\),…,\(x_n\)的平均数为\(10\),标准差为\(2\),则\(2x_1-1\),\(2x_2-1\),…,\(2x_n-1\)的平均数和标准差分别为( )
A.\(19\)和\(2\) \(\qquad \qquad \qquad\) B.\(19\)和\(3\) \(\qquad \qquad \qquad\) C.\(19\)和\(4\) \(\qquad \qquad \qquad\) D.\(19\)和\(8\)
3.(多选)甲同学投掷骰子\(5\)次,并请乙同学将向上的点数记录下来,计算出平均数和方差.由于记录遗失,乙同学只记得这五个点数的平均数为\(2\),方差在区间\([1.2,2.4]\)内,则这五个点数( )
A.众数可能为\(1\) \(\qquad \qquad \qquad \qquad\) B.中位数可能为\(3\)
C.一定不会出现\(6\) \(\qquad \qquad \qquad \qquad\) D.出现\(2\)的次数不超过两次
4.2021年夏天由于用电量增多,某市政府鼓励居民节约用电,为了解居民用电情况,在某小区随机抽查了\(20\)户家庭的日用电量,结果如表:
日用电量(度) | \(4\) | \(5\) | \(6\) | \(8\) | \(9\) |
---|---|---|---|---|---|
户数 | \(4\) | \(4\) | \(7\) | \(3\) | \(2\) |
则关于这\(20\)户家庭的日用电量,下列说法:
①中位数是\(6\)度;\(\qquad\)②平均数是\(6\)度;\(\qquad\)③众数是\(6\)度;\(\qquad\)④极差是\(4\)度;\(\qquad\)⑤方差是 \(\dfrac{5}{2}\).
其中说法错误的序号是\(\underline{\quad \quad}\) .
5.在发生某公共卫生事件期间,有专业机构认为该事件在一段事时间内没有发生大规模群体感染的标志是“连续\(10\)日,每天新增疑似病例不超过\(7\)人”.过去\(10\)日,甲、乙、丙、丁四地新增疑似病例数据信息如下:
甲地:中位数为\(2\),众数为\(3\);
乙地:总体平均数为\(2\),总体方差为\(3\);
丙地:总体平均数为\(1\),总体方差大于\(0\);
丁地:总体平均数为\(3\),中位数为\(4\).
则甲、乙、丙、丁四地中,一定没有发生大规模群体感染的是\(\underline{\quad \quad}\)地.
6.甲、乙两名跳高运动员进行了\(8\)次比赛,他们的成绩(单位:\(m\))如下:
甲:\(1.70\) \(1.65\) \(1.68\) \(1.69\) \(1.72\) \(1.73\) \(1.68\) \(1.67\)
乙:\(1.60\) \(1.73\) \(1.72\) \(1.61\) \(1.62\) \(1.71\) \(1.70\) \(1.75\)
(1)甲、乙两名运动员的平均跳高成绩分别是多少?
(2)哪位运动员的成绩更为稳定?
(3)教练根据这\(8\)次成绩,从甲、乙两名运动员中挑选一个参加省大学生运动会,若预测跳过\(1.65m\)就很可能获得冠军,该校为了获得冠军,可能选哪名运动员参赛?若预测跳过\(1.70m\)才能得冠军呢?
参考答案
-
答案 \(D\)
解析 结合数据得众数为\(7\)和\(9\),故\(A\)正确,
平均数是 \(\bar{x}=\dfrac{7 \times 3+9 \times 3+5 \times 2+4+8}{10}=7\),故\(C\)正确,
\(s^2=\dfrac{1}{10}\left(3^2+2^2+2^2+1^2+2^2+2^2+2^2\right)=3\),故\(B\)正确,
\(10\)次射击成绩从小到大排列分别是:\(4\),\(5\),\(5\),\(7\),\(7\),\(7\),\(8\),\(9\),\(9\),\(9\),
\(\because 10×70\%=7\),
\(\therefore\)第\(70\)百分位数为 \(\dfrac{8+9}{2}=8.5\),故\(D\)错误,
故选:\(D\). -
答案 \(C\)
解析 \(\because x_1\),\(x_2\),\(x_3\),…,\(x_n\)的平均数为\(10\),标准差为\(2\),
\(2x_1-1\),\(2x_2-1\),…,\(2x_n-1\)的平均数为:\(2×10-1=19\),
标准差为: \(\sqrt{2^2 \times 2^2}=4\).故选:\(C\). -
答案 \(ACD\)
解析 对于\(A\),向上的点数为\(1\),\(1\),\(1\),\(2\),\(5\)时,众数为\(1\),平均数为\(2\),
方差为 \(\dfrac{1}{5}\left[(1-2)^2+(1-2)^2+(1-2)^2+(2-2)^2+(5-2)^2\right]=1.2 \in\left[1.2, 2.4\right]\),
故\(A\)正确;
若中位数为\(3\),设五次数据从小到大为:\(a_1\),\(a_2\),\(a_3\),\(a_4\),\(a_5\),
则\(a_3=3\),
\(\therefore a_1+a_2+a_4+a_5=2×5-3=7\),
\(a_1+a_2≥2\),\(a_4+a_5≤5\),矛盾,故\(B\)错误;
若出现了\(6\),则其它四次和为\(4\),即数据为\(1\),\(1\),\(1\),\(1\),\(6\),
方差为\(\dfrac{1}{5}\left[(1-2)^2+(1-2)^2+(1-2)^2+(1-2)^2+(6-2)^2\right]=4 \notin[1.2,2.4]\),矛盾,故\(C\)正确;
若出现\(3\)次\(2\),则其它\(2\)次和为\(4\),这两次为\(1\),,
方差为\(\dfrac{1}{5}\left[(1-2)^2+(2-2)^2+(2-2)^2+(2-2)^2+(4-2)^2\right]=0.4 \notin\left[\begin{array}{ll} 1.2 & 2.4 \end{array}\right]\),矛盾,故\(D\)正确.
故选:\(ACD\). -
答案 ④
解析对于①,由题可知,随机抽取了\(20\)户家庭的日用电量,
日用电量为\(4\)度的有\(4\)户,日用电量为\(5\)度的有\(4\)户,\(4+4=8<10\),
而日用电量为\(6\)度的有\(7\)户,\(4+4+7=15>10\),
所以中位数是\(6\)度,故①正确,
对于②,\(20\)户家庭的日用电量的平均数为 \(\dfrac{4 \times 4+4 \times 5+7 \times 6+3 \times 8+2 \times 9}{20}=6\)度,
故②正确,
对于③,从用户数可知,日用电量为\(6\)度的用户最多,
所以众数为\(6\)度,故③正确,
对于④,由于日用电电量最多为\(9\)度,最少为\(4\)度,
所以极差为\(9-4=5\)度,故④错误,
对于⑤, \(s^2=\dfrac{1}{20}\left[(4-6)^2 \times 4+(5-6)^2 \times 4+(6-6)^2 \times 7+(8-6)^2 \times 3\right.\)\(\left.+(9-6)^2 \times 2\right]=\dfrac{5}{2}\),故⑤正确.
故选:④. -
答案 乙
解析 根据题意,依次分析选项:
对于甲地:中位数为\(2\),众数为\(3\),有可能出现超过\(7\)人的情况,如数据\(0\),\(0\),\(1\),\(1\),\(2\),\(2\),\(3\),\(3\),\(3\),\(8\),出现了每天新增疑似病例超过\(7\)人的情况,可能发生大规模群体感染;
对于乙地,假设过去\(10\)天新增疑似病例数据存在一个数据\(x\),\(x≥8\),
而总体平均数为\(2\),则总体方差\(S^2>\dfrac{1}{10}(x-2)^2 \geq 3.6\),故不成立,
故假设不成立,故符合没有发生大规模群体感染的标志,一定没有发生大规模群体感染;
对于丙地,对于数据\(8\),\(1\),\(1\),\(0\),\(0\),\(0\),\(0\),\(0\),\(0\),\(0\),总体平均数为\(1\),总体方差大于\(0\),而出现了每天新增疑似病例超过\(7\)人的情况,可能发生大规模群体感染;
对于丁地,平均数与中位数不能限制极端值的出现,则有可能出现超过\(7\)人的情况,可能发生大规模群体感染;
故答案为:乙. -
答案 (1) 甲的平均成绩为\(1.69m\),乙的平均成绩为\(1.68m\);(2) 甲的成绩更为稳定;(3)略
解析 (1)甲的平均成绩为:
\((1.70+1.65+1.68+1.69+1.72+1.73+1.68+1.67)÷8=1.69(m)\),
乙的平均成绩为:
\((1.60+1.73+1.72+1.61+1.62+1.7+1.70+1.75)÷8=1.68(m)\);
(2)根据方差公式可得:甲的方差为\(0.0006\),乙的方差为\(0.00315\),
\(\because 0.0006<0.00315\),
\(\therefore\)甲的成绩更为稳定;
(3)若跳过\(1.65m\)就很可能获得冠军,甲的成绩均过\(1.65m\),乙的成绩\(3\)次未过\(1.65m\),因此选甲;
若预测跳过\(1.70m\)才能得冠军,甲的成绩过\(1.70m\)\(3\)次,乙的成绩过\(1.70m\)\(5\)次,因此选乙.
【题型2】 总体离散程度的估计
【典题1】 为了解本市居民的生活成本,甲、乙、内三名同学利用假期分别对三个社区进行了“家庭每月日常消费额”的调查.他们将调查所得到的数据分别绘制成频率分布直方图(如图所示),甲、乙、丙所调查数据的标准差分别为\(s_1\),\(s_2\),\(s_3\),则它们的大小关系为( )
A.\(s_1>s_2>s_3\) \(\qquad \qquad\) B.\(s_1>s_3>s_2\) \(\qquad \qquad\) C.\(s_3>s_2>s_1\) \(\qquad \qquad\) D.\(s_3>s_1>s_2\)
解析 根据三个频率分步直方图知,
甲数据的两端数字较多,绝大部分数字都处在两端数据偏离平均数远,最分散,其方差、标准差最大;
丙数据是单峰的每一个小长方形的差别比较小,数字分布均匀,数据不如第一组偏离平均数大,方差比第一组中数据中的方差、标准差小,
而乙数据绝大部分数字都在平均数左右,数据最集中,故其方差、标准差最小,
总上可知\(s_1>s_3>s_2\),
故选:\(B\).
点拨直接看各组数据的离散程度就可以比较它们方差之间的大小.
【典题2】从某企业生成的产品生产线上随机抽取\(200\)件产品,测量这批产品的一项质量指标值,由测量结果得如图所示的频率分布直方图:
(1) 估计这批产品质量指标值的样本平均\(\bar{x}\)和样本方差\(s^2\) (同一组中的数据用该组区间的中点值做代表):
(2) 若该种产品的等级及相应等级产品的利润(每件)参照以下规则(其中Z为产品质量指标值):
当\(Z\in (\bar{x}-s,\bar{x}+s)\)该产品定为一等品,企业可获利\(200\)元;
当\(Z\in (\bar{x}-2s,\bar{x}+2s)\)且\(Z\notin (\bar{x}-s,\bar{x}+s)\)该产品定为二等品,企业可获利\(100\)元:
当\(Z\in (\bar{x}-3s,\bar{x}+3s)\)且\(Z\notin (\bar{x}-2s,\bar{x}+2s)\).该产品定为三等品,企业将损失\(500\)元;
否则该产品定为不合格品,企业将损失\(1000\)元
(i)若测得一箱产品(\(5\)件)的质量指标数据分别为:\(76\)、\(85\)、\(93\)、\(105\)、\(112\),求该箱产品的利润;
(ii)设事件\(A\):\(Z\in (\bar{x}-s,\bar{x}+s)\);事件\(B\):\(Z\in (\bar{x}-2s,\bar{x}+2s)\);
事件\(C\):\(Z\in (\bar{x}-2s,\bar{x}+2s)\)根据经验,对于该生产线上的产品,事件\(A\)、\(B\)、\(C\)发生的概率分别为\(0.6826\)、\(0.9544\)、\(0.9974\),根据以上信息,若产品预计年产量为\(10000\)件,试估计设产品年获利情况(参考数据:\(\sqrt{26}=5.10\))
解析 (1)质量指标的样本平均数:
\(\bar{x}=80×0.06+90×0.26+100×0.38+110×0.22+120×0.08=100\),
质量指标的样本方差为:
\(S^2=(80-100)^2 \times 0.06+(90-100)^2 \times 0.26+(110-100)^2 \times 0.22\)\(+(120-100)^2 \times 0.08=104\),
\(\therefore\)估计这批产品质量指标值的样本平均\(\bar{x}=100\),样本方差\(s^2=104\).
(2)(i)\(\because (\bar{x}-s,\bar{x}+s)=(89.8,110.2)\),\((\bar{x}-2s,\bar{x}+2s)=(79.6,120.4)\),
\((\bar{x}-3s,\bar{x}+3s)=(69.4,130.6)\),
由题意得\(5\)件产品中有一等品\(2\)件:\(93\),\(105\),
有二等品\(2\)件:\(85\),\(112\),有三等品\(1\)件:\(76\),
\(\therefore\)根据规则该箱产品的利润为:\(2×200+2×100+1×(-500)=100\)元.
(ii)根据提供的概率分布,该企业生产的产品中:
一等品大约为:\(10000×0.6826=6826\)件,
二等品大约为:\(10000×(0.9544-0.6826)=2718\)件,
三等品大约为:\(10000×(0.9974-0.9544)=430\)件,
不合格品大约为:\(10000×(1-0.9974)=26\)件,
估计年获利为:\(6826×200+2718×100+430×(-500)+26×(-1000)=1396000\)(元).
点拨 在频率直方图中求方差,其值\(S^2=\sum_{i=1}^n f_i\left(x_i-\bar{x}\right)^2\),其中\(f_i\)为每组的频率,\(x_i\)为每组的组中值.简证:与求平均数差不多,频率直方图中数据具体分布不清楚,假设是均匀分布的,每组的每个数值均为该组组中值较为合理,设总量为\(n\),则每组都有\(n\cdot f_i\)个\(x_i\),每组的各数值与平均数之差的平方之和为\(n \cdot f_i \cdot\left(x_i-\bar{x}\right)^2\),则所有数据与平均数之差的平方之和为\(\sum_{i=1}^n n f_i\left(x_i-\bar{x}\right)^2=n \sum_{i=1}^n f_i\left(x_i-\bar{x}\right)^2\),则方差 \(S^2=\dfrac{1}{\mathrm{n}} \cdot n \sum_{i=1}^n f_i\left(x_i-\bar{x}\right)^2=\sum_{i=1}^n f_i\left(x_i-\bar{x}\right)^2\),它只是个估计值.
【巩固练习】
1.某公司为了解用户对其产品的满意度,从甲、乙两地区分别随机调查了\(100\)个用户,根据用户对产品的满意度评分,分别得到甲地区和乙地区用户满意度评分的频率分布直方图.
若甲地区和乙地区用户满意度评分的中位数分别为\(m_1\),\(m_2\);方差分别为\(s_1^2\),\(s_2^2\),则下面正确的是( )
A.\(m_1>m_2\), \(s_1^2>s_2^2\) \(\qquad\) B.\(m_1>m_2\),\(s_1^2<s_2^2\) \(\qquad\) C.\(m_1<m_2\),\(s_1^2<s_2^2\) \(\qquad\) D.\(m_1<m_2\),\(s_1^2>s_2^2\)
2.(多选)坚持健康第一的教育理念,加强学校体育工作,推动青少年文化学习和体育锻炼协调发展.某学校对高一和高二年级每周在校体育锻炼时长进行了统计,得到数据(单位:小时)如表:
高一年级在校体育锻炼时长
分组 | 频率 |
---|---|
\([2,3)\) | \(0.25\) |
\([3,4)\) | \(0.30\) |
\([4,5)\) | \(0.20\) |
\([5,6]\) | \(0.25\) |
关于高一和高二年级在校体育锻炼时长,下列说法正确的是( )
A.高一年级时长的众数比高二年级的大
B.高一年级时长的平均数比高二年级的小
C.高一年级时长的中位数比高二年级的大
D.高一年级时长的方差比高二年级的大
3.某学校\(1800\)名学生在一次百米测试中,成绩全部介于\(13\)秒与\(18\)秒之间,抽取其中\(50\)个样本,将测试结果按如下方式分成五组:第一组\([13,14]\),第二组\([14,15)\),第五组\([17,18]\),如图是按上述分组方法得到的频率分布直方图.
(1)若成绩小于\(15\)秒认为良好,求该样本在这次百米测试中成绩良好的人数;
(2)请估计学校\(1800\)名学生中,成绩属于第四组的人数;
(3)请根据频率分布直方图,求样本数据的众数、中位数、平均数和方差.
参考答案
- 答案 \(D\)
解析 由频率分布直方图得:
甲地区:\([40,60]\)的频率为\((0.015+0.020)×10=0.35\),
\([60,70)\)的频率为\(0.025×10=0.25\),
\(\therefore\)甲地区用户满意度评分的中位数 \(m_1=60+\dfrac{0.5-0.35}{0.25} \times 10=66\),
乙地区:\([50,70]\)的频率为\((0.005+0.020)×10=0.25\),
\([70,80)\)的频率为\(0.035×10=0.35\),
\(\therefore\)乙地区用户满意度评分的中位数 \(m_2=70+\dfrac{0.5-0.25}{0.35} \times 10 \approx 77.1\),
\(\therefore m_1<m_2\),
由直方图可以看出,乙地区用户满意度评分的集中程度比甲地区的高,
\(\therefore s_1^2>s_2^2\).
故选:\(D\). - 答案 \(BD\)
解析 对于高一年级,由表可进行下列计算:
时长众数为\(3.5\),时长平均数为\(2.5×0.25+3.5×0.3+4.5×0.2+5.5×0.25=3.95\),
时长中位数为 \(3+\dfrac{0.55-0.5}{0.3}=\dfrac{19}{6}\),
时长方差为 \((2.5-3.95)^2 \times 0.25+(3.5-3.95)^2 \times 0.30+(4.5-3.95)^2 \times 0.20+\)\((5.5-3.95)^2 \times 0.25=1.2475\);
对于高二年级,由频率分布直方图可进行下列计算:
时长众数为\(4.5\),时长平均数为\(2.5×0.15+3.5×0.25+4.5×0.35+5.5×0.25=4.2\),
时长中位数为 \(4+\dfrac{0.75-0.5}{0.35}=\dfrac{33}{7}\),
时长方差为 \((2.5-4.2)^2 \times 0.15+(3.5-4.2)^2 \times 0.25+(4.5-4.2)^2 \times 0.35\)\(+(5.5-4.2)^2 \times 0.25=0.5693\).
由上可知:\(3.5<4.5\),\(3.95<4.2\), \(\dfrac{19}{6}<\dfrac{33}{7}\),\(1.2475>0.5693\),
故选:\(BD\). - 答案 (1) \(11\); (2) \(576\); (3) 众数\(15.5\)、中位数\(15.74\)、平均数\(15.7\)、方差\(1\).
解析 (1)样本在这次百米测试中成绩优秀的人数\(0.22×50=11\)(人)
(2)学校\(1800\)名学生中,成绩属于第四组的人数\(0.32×1800=576\)(人)
(3)由图可知众数落在第三组\([15,16)\),是\(15+162=15.5\)
因为数据落在第一、二组的频率\(=1×0.06+1×0.16=0.22<0.5\)
数据落在第一、二、三组的频率\(=1×0.06+1×0.16+1×0.38=0.6>0.5\)
所以中位数一定落在第三组\([15,16)\)中.
假设中位数是\(x\),所以\(1×0.06+1×0.16+(x-15)×0.38=0.5\)
解得中位数\(x=29919≈15.7368≈15.74\)
平均数为:\(13.5×0.06+14.5×0.16+15.5×0.38+16.5×0.32+17.5×0.08=15.7\)
方差为: \((13.5-15.7)^2 \times 0.06+(14.5-15.7)^2 \times 0.16+(15.5-15.7)^2 \times 0.38\)
\(+(16.5-15.7)^2 \times 0.32+(17.5-15.7)^2 \times 0.08=1\).
分层练习
【A组---基础题】
1.为评估一种农作物的种植效果,选了\(n\)块地作试验田,这\(n\)块地的亩产量(单位:\(kg\))分别是\(x_1\),\(x_2\),\(x_3\),…,\(x_n\),下面给出的指标中可以用来评估这种农作物亩产量稳定程度的是( )
A.\(x_1\),\(x_2\),\(x_3\),…,\(x_n\)的平均数
B.\(x_1\),\(x_2\),\(x_3\),…,\(x_n\)的标准差
C.\(x_1\),\(x_2\),\(x_3\),…,\(x_n\)的最大值
D.\(x_1\),\(x_2\),\(x_3\),…,\(x_n\)的中位数
2.在某次测量中得到E的样本数据如下:\(80\),\(82\),\(82\),\(84\),\(84\),\(84\),\(84\),\(86\),\(86\),\(86\),\(86\).若\(F\)的样本数据恰好是E的样本数据都减去\(2\)后得到的数据,则关于\(E\),\(F\)两样本数据特征的下列说法中,正确的是( )
A.\(E\),\(F\)样本数据的众数为\(84\) \(\qquad \qquad \qquad \qquad\) B.\(E\),\(F\)样本数据的方差相同
C.\(E\),\(F\)样本数据的平均数相同 \(\qquad \qquad \qquad \qquad\) D.\(E\),\(F\)样本数据的中位数相同
3.如图,样本数为\(9\)的四组数据,它们的平均数都是\(5\),频率条形图如下,则标准差最大的一组是( )
A.第一组 \(\qquad \qquad \qquad \qquad\) B.第二组 \(\qquad \qquad \qquad \qquad\) C.第三组 \(\qquad \qquad \qquad \qquad\) D.第四组
4.已知数据\(x_1\),\(x_2\),\(x_3\),…,\(x_n\)是上海普通职工\(n(n≥3,n\in N^*)\)个人的年收入,设这\(n\)个数据的中位数为\(x\),平均数为\(y\),方差为\(z\),如果再加上世界首富的年收入\(x_{n+1}\),则这\(n+1\)个数据中,下列说法正确的是( )
A.年收入平均数大大增大,中位数一定变大,方差可能不变
B.年收入平均数大大增大,中位数可能不变,方差变大
C.年收入平均数大大增大,中位数可能不变,方差也不变
D.年收入平均数可能不变,中位数可能不变,方差可能不变
5.高三年级在某次月考时,某班数学科代表作统计本班数学成绩的工作,并计算出班级数学平均分和方差,当工作完成时,发现漏统计了一位同学的数学成绩,若该同学的数学成绩恰是班级的数学平均分,则下列说法正确的是( )
A.班级平均分不变,方差变小
B.班级平均分不变,方差变大
C.班级平均分改变,方差变小
D.班级平均分改变,方差变大
6.某同学掷骰子\(5\)次,分别记录每次骰子出现的点数,根据\(5\)次的统计结果,可以判断一定没有出现点数\(6\)的是( )
A.中位数是\(3\),众数是\(2\) \(\qquad \qquad \qquad \qquad\) B.平均数是\(3\),中位数是\(2\)
C.方差是\(2.4\),平均数是\(2\) \(\qquad \qquad \qquad \qquad\) D.平均数是\(3\),众数是\(2\)
7.乐乐家共有七人,已知今年这七人岁数的众数为\(35\)、平均数分\(44\)、中位数为\(55\)、标准差为\(19\).则\(5\)年后,下列说法中正确的有\(\underline{\quad \quad}\) (请把所有正确结论的序号写出)
①这七人岁数的众数变为\(40\);②这七人岁数的平均数变为\(49\);
③这七人岁数的中位数变为\(60\);④这七人岁数的标准差变为\(24\).
8.气象学意义上从春季进入夏季的标志为:“连续\(5\)天的日平均气温均不低于\(22℃\)”.现有甲、乙、丙三地的日平均气温的记录数据(记录数据均为正整数).
甲地:\(5\)个数据的中位数是\(24\),众数为\(22\);
乙地:\(5\)个数据的中位数是\(28\),总体平均数为\(25\);
丙地:\(5\)个数据一个为\(32\),总体平均数为\(26\),方差为\(10.8\).
则由此判断进入夏季的地区有\(\underline{\quad \quad}\).
9.某工厂现有甲、乙两条生产线,可生产同一型号的产品.为了提高生产线的稳定性和产品的质量,计划对其中一条生产线进行技术升级.为此,让甲、乙两条生产线各生产\(8\)天(每天生产的时间、产品总数均相同),两条生产线每天生产的次品数分别为:
第\(1\)天 | 第\(2\)天 | 第\(3\)天 | 第\(4\)天 | 第\(5\)天 | 第\(6\)天 | 第\(7\)天 | 第\(8\)天 | |
---|---|---|---|---|---|---|---|---|
甲 | \(0\) | \(1\) | \(1\) | \(0\) | \(1\) | \(1\) | \(1\) | \(1\) |
乙 | \(1\) | \(2\) | \(3\) | \(0\) | \(0\) | \(0\) | \(1\) | \(1\) |
(1)分别计算这两组数据的平均数和方差;
(2)请依据所学统计知识,结合(1)中的数据,给出升级哪条生产线的建议,并说明你的理由.
10.某学校为了了解高二年级学生数学运算能力,对高二年级的\(200\)名学生进行了一次测试.已知参加此次测试的学生的分数\(x_i (i=1,2,…,200)\)全部介于\(45\)分到\(95\)分之间,该校将所有分数分成\(5\)组:\([45,55)\),\([55,65)\),…,\([85,95]\),整理得到如下频率分布直方图(同组数据以这组数据的中间值作为代表).
(1)求\(m\)的值,并估计此次校内测试分数的平均值\(\bar{x}\);
(2)学校要求按照分数从高到低选拔前\(20\)名的学生进行培训,试估计这\(20\)名学生的最低分数;
(3)试估计这\(200\)名学生的分数\(x_i (i=1,2,…,200)\)的方差\(s^2\),并判断此次得分为\(52\)分和\(94\)分的两名同学的成绩是否进入到了\([\bar{x}-2s,\bar{x}+2s]\)范围内?
(参考公式: \(s^2=\dfrac{1}{n} \sum_{i=1}^n f_i\left(x_i-\bar{x}\right)^2\),其中\(f_i\)为各组频数;参考数据: \(\sqrt{129} \approx 11.4\))
参考答案
- 答案 \(B\)
解析 在\(A\)中,平均数是表示一组数据集中趋势的量数,它是反映数据集中趋势的一项指标,
故\(A\)不可以用来评估这种农作物亩产量稳定程度;
在\(B\)中,标准差能反映一个数据集的离散程度,故\(B\)可以用来评估这种农作物亩产量稳定程度;
在\(C\)中,最大值是一组数据最大的量,故\(C\)不可以用来评估这种农作物亩产量稳定程度;
在\(D\)中,中位数将数据分成前半部分和后半部分,用来代表一组数据的“中等水平”,
故\(D\)不可以用来评估这种农作物亩产量稳定程度.
故选:\(B\). - 答案 \(B\)
解析 \(\because\)在某次测量中得到\(E\)的样本数据如下:
\(80\),\(82\),\(82\),\(84\),\(84\),\(84\),\(84\),\(86\),\(86\),\(86\),\(86\).
若\(F\)的样本数据恰好是\(E\)的样本数据都减去\(2\)后得到的数据,
\(\therefore E\)样本数据的众数是\(84\)和\(86\),\(F\)样本数据的众数是\(82\)和\(84\),故\(A\)错误;
\(E\),\(F\)样本数据的方差相同,故\(B\)正确;
\(E\)样本数据的平均数比\(F\)样本数据的平均数大\(2\),故\(C\)错误;
\(E\)样本数据的中位数比\(F\)样本数据的中位数大\(2\),故\(D\)错误.
故选:\(B\). - 答案 \(D\)
解析 由所给的几个选项观察数据的波动情况,
得到方差之间的大小关系,
\(A\)的\(9\)个数据都是\(5\),方差为\(0\),
\(B\)和\(C\)数据分布比较均匀,前者的方差较小,后者的方差较大,
\(D\)数据主要分布在\(2\)和\(8\)处,距离平均数是最远的一组,
\(\therefore\)最后一个频率分步直方图对应的数据的方差最大,
则标准差最大,
故选:\(D\). - 答案 \(B\)
解析 \(\because\)数据\(x_1\),\(x_2\),\(x_3\),…,\(x_n\)是上海普通职工\(n(n≥3,n\in N^*)\)个人的年收入,
而\(x_{n+1}\)为世界首富的年收入
则\(x_{n+1}\)会远大于\(x_1\),\(x_2\),\(x_3\),…,\(x_n\),
故这\(n+1\)个数据中,年收入平均数大大增大,
但中位数可能不变,也可能稍微变大,
但由于数据的集中程序也受到\(x_{n+1}\)比较大的影响,而更加离散,则方差变大
故选\(B\) - 答案 \(A\)
解析 设原平均分为\(a\),人数为\(n\),增加\(1\)人分数为\(a\)后的平均分为 \(\dfrac{n a+1 \cdot a}{n+1}=\dfrac{a(n+1)}{n+1}=a\),
故班级的平均分不变;
而由方差公式 \(s^2=\dfrac{1}{n}\left[\left(x_1-\bar{x}\right)^2+\left(x_2-\bar{x}\right)^2+\cdots+\left(x_n-\bar{x}\right)^2\right]\),
当增加一个为均值的数时,方差公式中的n增大,中括号内的值不变,使得最终结果变小,
即 \(s^{\prime 2}=\dfrac{1}{n+1}\left[\left(x_1-\bar{x}\right)^2+\left(x_2-\bar{x}\right)^2+\cdots+\left(x_n-\bar{x}\right)^2+(\bar{x}-\bar{x})^2\right]\)
\(=\dfrac{1}{n+1}\left[\left(x_1-\bar{x}\right)^2+\left(x_2-\bar{x}\right)^2+\cdots+\left(x_n-\bar{x}\right)^2\right]\),故增加一个为均值的数据方差变小.
故选:\(A\). - 答案 \(C\)
解析 对于\(A\),有可能出现点数\(6\),例如\(2\),\(2\),\(3\),\(4\),\(6\);
对于\(B\),有可能出现点数\(6\),例如\(2\),\(2\),\(2\),\(3\),\(6\);
对于\(C\),设这\(5\)次的点数为\(x_1\),\(x_2\),⋯,\(x_5\),
则方差 \(s^2=\dfrac{1}{5}\left[\left(x_1-2\right)^2+\left(x_2-2\right)^2+\cdots+\left(x_5-2\right)^2\right]\),
如果出现点数\(6\),而 \(\dfrac{1}{5} \times(6-2)^2=3.2\),则方差大于或等于\(3.2\),故不可能出现点数\(6\);
对于\(D\),有可能出现点数\(6\),例如\(2\),\(2\),\(2\),\(3\),\(6\).
故选:\(C\). - 答案 ①②③
解析 对于①,五年后众数为\(35+5=40\),正确;
对于②,五年后平均数分\(44+5=49\),正确;
对于③,五年后中位数为\(55+5=60\),正确;
对于④,标准差表示数据的波动性大小,五年后标准差不变,仍为\(19\),④错误.
综上知,正确的命题序号是①②③.
故答案为:①②③. - 答案 甲地、丙地
解析 由\(5\)个数据的中位数是\(24\),众数为\(22\)知,
\(5\)个数据从小到大排序后的前三个数为\(22\),\(22\),\(24\),故可判断甲地进入夏季;
由\(5\)个数据的中位数是\(28\),总体平均数为\(25\)知,
\(5\)个数据从小到大排序后可以是\(16\),\(25\),\(28\),\(28\),\(28\),故判断不出乙地进入夏季;
对于丙地,若有一个数据\(x≤21\),则 \(\dfrac{(32-26)^2+(x-26)^2}{5} \geqslant \dfrac{36+25}{5}>10.8\),
与\(5\)个数据的方差为\(10.8\)相矛盾,故假设不成立,故可判断丙地进入夏季;
故答案为:甲地、丙地. - 答案 (1) 甲组平均数和方差为\(\dfrac{3}{4}\),\(\dfrac{3}{16}\),乙组平均数和方差为\(1\),\(1\);
(2) 选择乙生产线进行升级
解析 (1)设甲组数据的平均数和方差为 \(\bar{x_1}\),\(s_1^2\),乙组数据的平均数和方差为\(\bar{x_2}\),\(s_2^2\),
\(\therefore \bar{x_1}=\dfrac{0+1+1+0+1+1+1+1}{8}=\dfrac{6}{8}=\dfrac{3}{4}\), \(s_1^2=\dfrac{1}{8}\left[2 \times\left(0-\dfrac{3}{4}\right)^2+6 \times\left(1-\dfrac{3}{4}\right)^2\right]=\dfrac{3}{16}\),
\(\bar{x}_2=\dfrac{1+2+3+0+0+0+1+1}{8}=\dfrac{8}{8}=1\), \(s_2^2=\dfrac{1}{8}\left[3 \times(0-1)^2+(2-1)^2+(3-1)^2\right]=1\);
(2)由于\(\bar{x}_1<\bar{x}_2\),甲生产线生产的次品平均数少于乙生产线生产的次品平均数,
又 \(s_1^2<s_2^2\),甲生产线较乙生产线生产的产品质量更稳定,
综上,选择乙生产线进行升级. - 答案 (1) \(75\); (2) \(90\); (3) 得分为\(52\)分的同学的成绩没有进入到\([\bar{x}-2s,\bar{x}+2s]\)范围,得分为\(94\)分的同学的成绩进入到 \([\bar{x}-2s,\bar{x}+2s]\)范围了.
解析(1)\(\because (0.006+0.014+m+0.036+0.020)×10=1\).\(\therefore m=0.024\).
\(\therefore\)该次校内考试测试分数的平均数的估计值为:\(50×0.06+60×0.14+70×0.24+80×0.36+90×0.2=75\)分.
(2) \(\because \dfrac{200-20}{200}=90 \%\).
\(\therefore\)这\(20\)名学生的最低分数就是该次校内测试分数的\(90\%\)分位数.
\(\because 0.06+0.14+0.24+0.36=0.8<0.9\).
\(0.06+0.14+0.24+0.36+0.2=1>0.9\).
\(\therefore\)该次校内考试测试分数的\(90\%\)分位数为 \(85+\dfrac{0.90-0.8}{1-0.8} \times 10=90\).
\(\therefore\)这\(20\)名学生的最低分数的估计值为\(90\)分.
(3) \(\because s^2=\dfrac{1}{n} \sum_{i=1}^k f_i\left(x_i-\bar{x}\right)^2\)
\(=0.06 \times(50-75)^2+0.14 \times(60-75)^2+0.24 \times(70-75)^2+0.36 \times(80-75)^2\)
\(+0.2 \times(90-75)^2=129\),
\(\therefore s=\sqrt{129} \approx 11.4\),\(\therefore \bar{x}-2s=52.2\),\(\bar{x}+2s=97.8\).
\(\therefore\)得分为\(52\)分的同学的成绩没有进入到\([52.2,97.8]\)内,
得分为\(94\)分的同学的成绩进入到了\([52.2,97.8]\)内.
即:得分为\(52\)分的同学的成绩没有进入到 \([\bar{x}-2s,\bar{x}+2s]\)范围,
得分为\(94\)分的同学的成绩进入到 \([\bar{x}-2s,\bar{x}+2s]\)范围了.
【B组---提高题】
1.酒后驾驶是严重危害交通安全的行为,某交通管理部门对辖区内四个地区(甲、乙、丙、丁)的酒驾治理情况进行检查督导,若“连续\(8\)天,每天查获的酒驾人数不超过\(10\)”,则认为“该地区酒驾治理达标”,根据连续\(8\)天检查所得数据的数字特征推断,酒驾治理一定达标的地区是( )
A.甲地,均值为\(4\),中位数为\(5\) \(\qquad \qquad\qquad \qquad\) B.乙地:众数为\(3\),中位数为\(2\)
C.丙地:均值为\(7\),方差为\(2\) \(\qquad \qquad\qquad \qquad\) D.丁地:极差为\(3\),\(75\%\)分位数为\(8\)\(\qquad \qquad\)
2.如果两组数\(x_1\),\(x_2\),…,\(x_n\) 和\(y_1\),\(y_2\),…,\(y_n\)的平均数分别为\(\bar{x}\)和\(\bar{y}\),标准差分别为\(S_1\)和\(S_2\),那么合为一组数\(x_1\),\(x_2\),\(x_3\),…,\(x_n\) ,\(y_1\),\(y_2\),…,\(y_n\)后的平均数和标准差\(S\)分别是( )
A. \(\bar{x}+\bar{y}\), \(\dfrac{S_1^2+S_2^2}{2}\) \(\qquad \qquad\qquad \qquad\) B. \(\bar{x}+\bar{y}\), \(\dfrac{\sqrt{S_1^2+S_2^2}}{2}\)\(\qquad \qquad\)
C.\(\dfrac{\bar{x}+\bar{y}}{2}\),\(\dfrac{S_1^2+S_2^2}{2}\) \(\qquad \qquad\qquad \qquad\) D.\(\dfrac{\bar{x}+\bar{y}}{2}\), \(\sqrt{\dfrac{s_1^2+s_2^2}{2}+\dfrac{(\bar{x}-\bar{y})^2}{4}}\)
参考答案
- 答案 \(C\)
解析 不妨设\(8\)天中,每天查获的酒驾人数从小到大分别为\(x_1\),\(x_2\),\(x_3\),…,\(x_8\),且\(x_i≥0\),其中\(i=1\),\(2\),...,\(8\),
选项\(A\):若不达标,则\(x_8≥11\),因为中位数为\(5\),所以\(x_4+x_5=10\),
又因为均值为\(4\),故\(\sum_{i=1}^8 x_i=32\),从而\(x_1+x_2+x_3+x_6+x_7⩽11\),
且\(x_1⩽x_2⩽x_3⩽5⩽x_6⩽x_7\),则\(x_1=x_2=0\),\(x_3=1\),\(x_4=x_5=x_6=x_7=5\),\(x_8=11\)满足题意,从而甲地有可能不达标,故\(A\)错误,
选项\(B\):由众数和中位数的定义易知,当\(x_1=x_2=0\),\(x_3=x_4=1\),\(x_5=x_6=x_7=3\),\(x_8=11\)时,乙地不达标,故\(B\)错误,
选项\(C\):若不达标,则\(x_8≥11\),由均值为\(7\)可知,则其余\(7\)个数中至少有一个数不等于\(7\),
由方差定义可知,\(S^2=\dfrac{1}{8} \sum_{i=1}^7\left(x_i-7\right)^2+\dfrac{1}{8}\left(x_8-7\right)^2>2\),这与方差为\(2\)矛盾,从而丙地一定达标,故\(C\)正确,
选项\(D\):由极差定义和百分位数定义可知,
当\(x_1=x_2=x_3=x_4=x_5=x_6=x_7=8\),\(x_8=11\)时,丁地不达标,故\(D\)错误,
故选:\(C\). - 答案 \(D\)
解析 数据\(x_1\),\(x_2\),…,\(x_n\) 和\(y_1\),\(y_2\),…,\(y_n\)的平均数分别为\(\bar{x}\)和\(\bar{y}\),
则 \(\bar{x}=\dfrac{1}{n}\left(x_1+x_2+\cdots+x_n\right)\), \(\bar{y}=\dfrac{1}{n}\left(y_1+y_2+\cdots+y_n\right)\);
所以数据\(x_1\),\(x_2\),\(x_3\),…,\(x_n\) ,\(y_1\),\(y_2\),…,\(y_n\)的平均数为
\(\bar{X}=\dfrac{\left(x_1+x_2+\cdots+x_n\right)+\left(y_1+y_2+\cdots+y_n\right)}{n+n}\)\(=\dfrac{n \bar{x}+n \bar{y}}{2 n}=\dfrac{\bar{x}+\bar{y}}{2}\);
又标准差为
\(s_1=\sqrt{\dfrac{1}{n}\left[\left(x_1-\bar{x}\right)^2+\left(x_2-\bar{x}\right)^2+\cdots+\left(x_n-\bar{x}\right)^2\right]}=\sqrt{\dfrac{1}{n}\left(x_1{ }^2+x_2{ }^2+\cdots+x_n{ }^2-n \bar{x}^2\right)}\),\(\therefore n s_1^2=x_1^2+x_2^2+\cdots+x_n^2-n \bar{x}^2\),
\(s_2=\sqrt{\dfrac{1}{n}\left[\left(y_1-\bar{y}\right)^2+\left(y_2-\bar{y}\right)^2+\left(y_n-\bar{y}\right)^2\right]}=\sqrt{\dfrac{1}{n}\left(y_1^2+y_2^2+\cdots+y_n^2\right)-n \bar{y}^2}\),
\(\therefore n s_2{ }^2=y_1^2+y_2^2+\cdots+y_n^2-n \bar{y}^2\);
所以数据\(x_1\),\(x_2\),\(x_3\),…,\(x_n\) ,\(y_1\),\(y_2\),…,\(y_n\)的标准差\(S\)满足 \(S^2=\dfrac{1}{2 n}\left[\left(x_1^2+{x_2}^2+\cdots+{x_n}^2+y_1^2+y_2^2+\cdots+y_n^2\right)-2 n \bar{X}^2\right]\)
\(=\dfrac{1}{2 n}\left[\left(x_1^2+x_2^2+\cdots+x_n^2-n \bar{x}^2\right)+\left(y_1^2+y_2^2+\cdots+y_n^2-n \bar{y}^2\right)\right.\)\(\left.+n \bar{x}^2+n \bar{y}^2-2 n\left(\dfrac{\bar{x}+\bar{y}}{2}\right)^2\right]\)
\(=\dfrac{1}{2 n}\left[n s_1^2+n s_2^2+n \cdot \dfrac{(\bar{x}-\bar{y})^2}{2}\right]=\dfrac{s_1{ }^2+s_2{ }^2}{2}+\dfrac{(\bar{x}-\bar{y})^2}{4}\);
\(\therefore S=\sqrt{\dfrac{s_1{ }^2+s_2{ }^2}{2}+\dfrac{(\bar{x}-\bar{y})^2}{4}}\).
故选:\(D\).
【C组---拓展题】
1.某样本由\(m+n\)个数组成,平均数为\(\bar{z}\),方差为\(s^2\),这个样本可分为两层:第一层有\(m\)个数,分别为\(x_1\),\(x_2\),…,\(x_m\) ,平均数为\(\bar{x}\),方差为\(s_1^2\):第二层有\(n\)个数,分别为\(y_1\),\(y_2\),⋯⋯,\(y_n\),平均数为\(\bar{y}\),方差为\(s_2^2\).
(1)证明: \(\bar{z}=\dfrac{m \bar{x}+n \bar{y}}{m+n}\);
(2)证明: \(\sum_{k=1}^m\left(x_k-\bar{x}\right)^2=\sum_{k=1}^m x_k^2-m \bar{x}^2\);
(3)证明: \(s^2=\dfrac{1}{m+n}\left[m s_1^2+n s_2^2+\dfrac{m n}{m+n}(\bar{x}-\bar{y})^2\right]\).
参考答案
- 证明 (1)证法一:第一层有\(m\)个数,分别为\(x_1\),\(x_2\),…,\(x_m\) ,平均数为\(\bar{x}\),
第二层有\(n\)个数,分别为\(y_1\),\(y_2\),⋯⋯,\(y_n\),平均数为\(\bar{y}\),
\(\therefore \bar{z}=\dfrac{x_1+x_2+\cdots+x_m+y_1+y_2+\cdots+y_n}{m+n}=\dfrac{m \bar{x}+n \bar{y}}{m+n}\);
证法二:(1)由平均数定义得 \(\bar{x}=\dfrac{1}{m} \sum_{k=1}^m x_k\), \(\bar{y}=\dfrac{1}{n} \sum_{k=1}^n y_k\),
\(\therefore \sum_{k=1}^m x_k+\sum_{k=1}^n y_k=m \bar{x}+n \bar{y}\),
\(\therefore \bar{z}=\dfrac{\sum_{k=1}^m x_k+\sum_{k=1}^n y_k}{m+n}=\dfrac{m \bar{x}+n \bar{y}}{m+n}\).
(2)证法一:
\(\sum_{k=1}^m\left(x_k-\bar{x}\right)^2=\left(x_1-\bar{x}\right)^2+\left(x_2-\bar{x}\right)^2+\cdot+\left(x_m-\bar{x}\right)^2\)
\(=x_1^2+x_2^2+\cdots+x_m^2-2 \bar{x}\left(x_1+x_2+\cdot+x_m\right)+m \bar{x}^2\)
\(=\sum_{k=1}^m x_k^2-2 m_x^2+m \bar{x}_x^2=\sum_{k=1}^m x_k^2-m \bar{x}^2\);
证法二: \(\because \sum_{k=1}^m x_k=m \bar{x}\)_, _\(\sum_{k=1}^m \bar{x}=m \bar{x}\)
\(\therefore \sum_{k=1}^m\left(x_k-\bar{x}\right)=\sum_{k=1}^m x_k-\sum_{k=1}^m \bar{x}=0\),
\(\because \sum_{k=1}^m 2 x_k \bar{x}=2 \bar{x} \sum_{k=1}^m x_k=2 m \bar{x}^2\),\(\sum_{k=1}^m \bar{x}^2=m \bar{x}^2\)
\(\therefore \sum_{k=1}^m\left(x_k-\bar{x}\right)^2=\sum_{k=1}^m\left(x_k^2-2 x_k \bar{x}+\bar{x}^2\right)\)
\(=\sum_{k=1}^m x_k^2-\sum_{k=1}^m 2 x_k \bar{x}+\sum_{k=1}^m \bar{x}^2=\sum_{k=1}^m x_k^2-m \bar{x}^2\).
(3)由方差定义得 \(\sum_{k=1}^m\left(x_k-\bar{x}\right)^2=m s_1^2\),
由(2)知 \(\sum_{k=1}^m x_k^2=m s_1^2+m \bar{x}^2\),
\(\therefore \sum_{k=1}^m\left(x_k-\bar{z}\right)^2=\sum_{k=1}^m x_k^2-\sum_{k=1}^m 2 x_k \bar{z}+\sum_{k=1}^m \bar{z}^2\),
同理, \(\sum_{k=1}^n\left(y_k-\bar{z}\right)^2=n s_2^2+n(\bar{y}-\bar{z})^2\),
\(\therefore s^2=\dfrac{1}{m+n}\left[\sum_{k=1}^m\left[\left(x_k-\bar{z}\right)^2+\sum_{k=1}^n\left(y_k-\bar{z}\right)^2\right]\right]\)
\(=\dfrac{1}{m+n}\left[m s_1^2+m(\bar{x}-\bar{z})^2+n s_2^2+n(\bar{y}-\bar{z})^2\right]\),
将\(\bar{z}=\dfrac{m \bar{x}+n \bar{y}}{m+n}\)代入化简得 \(s^2=\dfrac{1}{m+n}\left[m s_1^2+n s_2^2+\dfrac{m n}{m+n}(\bar{x}-\bar{y})^2\right]\).