9.2 用样本估计总体
必修第二册同步拔高,难度 2 颗星!
模块导图

知识剖析
总体取值规律的估计
① 频率直方图
(1) 画频率直方图的步骤
求极差 -- 决定组距与组数 -- 将数据分组 -- 列频率分布表 -- 画频率分布直方图.
(2) 小长方形的面积 = 频率
(3) 在直方图中,各小长方形的面积之和等于 .
总体百分位数的估计
① 第 p 百分位数的概念
一般地,一组数据的第 百分位数是这样一个值,它使得这组数据中至少有 的数据小于或等于这个值,且至少有 的数据大于或等于这个值.
② 计算一组 n 个数据的第 p 百分位数
第一步:按从小到大排列原始数据;
第二步:计算 ;
第三步:若 不是整数,而大于 的比邻整数为 ,则第 百分位数为第 j 项数据;若 是整数,则第 百分位数为第 项与第 项数据的平均数.
③ 四分位数的概念
四分位数:包含第 百分位数,第 百分位数,第 百分位数.
中位数相当于第 百分位数,第 百分位数也称为第一四分位数或下四分位数,第 75 百分位数也称为第三四分位数或上四分位数.
总体集中趋势的估计
一般来说,对一个单峰的频率分布直方图来说,如果直方图的形状是对称的,那么平均数和中位数应该大体上差不多;如果直方图在右边 “拖尾”,那么平均数大于中位数;如果直方图在左边 “拖尾”,那么平均数小于中位数.
一般地,对数值型数据 (如用水量,身高,收入,产量等) 集中趋势的描述,可以用平均数、中位数;而对分类型数据 (如校服规格、性别、产品质量等级等) 集中趋势的描述,可以用众数.
总体离散程度的估计
① 方差,标准差的概念
(1) 假设一组数据是 ,,…,,用 表示这组数据的平均数,我们称
这组数据的方差,为了计算方便也可以用 ;
标准差是 .
② 方差,标准差的意义
方差越大,表明数据波动越大,越不稳定;方差越小,表明数据波动越小,越稳定.
经典例题
【题型一】常见统计数据
【典题 1】 某地一年之内 个月的月降水量从小到大分别为:,, ,,, ,,,,,,,则该地区的月降水量 分位数和 分位数为( )
A., B., C., D.,
【解析】该组数据从小到大排列为:,,,,,,,,,,,,
因为 ,计算结果不是整数,
所以 分位数为第 项数据,即 ;
因为 ,计算结果是整数,
所以 分位数为第 项和第 项数据的平均数,即 .
【点拨】计算一组 个数据的第 百分位数的步骤:
第一步:按从小到大排列原始数据;
第二步:计算 ;
第三步:若 不是整数,而大于 的比邻整数为 ,则第 百分位数为第 j 项数据;若 是整数,则第 百分位数为第 项与第 项数据的平均数.
【典题 2】 甲、乙两人在相同条件下各打靶 次,每次打靶的成绩情况如图所示:下列说法错误的是 ( )
A.从平均数和方差相结合看,甲波动比较大,乙相对比较稳定
B.从折线统计图上两人射击命中环数走势看,甲更有潜力
C.从平均数和命中 环及 环以上的次数相结合看,甲成绩较好
D.从平均数和中位数相结合看,乙成绩较好
【解析】由图可知,甲打靶的成绩为 ,,,,,,8,,,,
所以甲的平均数为 ,
甲方差 ;
乙打靶的成绩分别为 ,,,,,,,,,,
乙的平均数为 ,
乙方差 ;
所以 ,从平均数和方差相结合看,甲波动比较大,乙波动比较小,故 正确,
(不求方差,看图也可知道甲的波动比乙的要打些)
从折线统计图看,在后半部分,甲呈上升趋势,而乙呈下降趋势,甲更有潜力,故 正确,
甲打靶的成绩为 ,,,,,,,,,,中位数为 ,
乙打靶的成绩为 ,,,,,,,,,,中位数为 ,
甲 环以及 环以上的次数为 次,乙 环以及 环以上的次数为 次,
而二人的平均数相同,故甲成绩更好点,故 正确,
甲乙的平均数相同,而甲的中位数大于乙的中位数,故甲的成绩比较好,故 错误,
故选:.
【典题 3】 已知 ,,…, 的平均数为 ,标准差为 ,则 ,,…, 的平均数和标准差分别为 .
【解析】,,…, 的平均数为 ,标准差为 ,
,,…, 的平均数为:,标准差为: .
【点拨】若原有的数据 ,,…, 平均数为 ,方差为 ,在原数据基础上进行线性变化 ,则新的平均数为 ,新的方差为 .
【典题 4】 为了解本市居民的生活成本,甲、乙、内三名同学利用假期分别对三个社区进行了 “家庭每月日常消费额” 的调查.他们将调查所得到的数据分别绘制成频率分布直方图 (如图所示),甲、乙、丙所调查数据的标准差分别为 ,,,则它们的大小关系为 ( )
A. B. C. D.
【解析】根据三个频率分步直方图知,
甲数据的两端数字较多,绝大部分数字都处在两端数据偏离平均数远,最分散,其方差、标准差最大;
丙数据是单峰的每一个小长方形的差别比较小,数字分布均匀,数据不如第一组偏离平均数大,方差比第一组中数据中的方差、标准差小,
而乙数据绝大部分数字都在平均数左右,数据最集中,故其方差、标准差最小,
总上可知 ,
故选:.
【点拨】根据方差的意义就可以判断方差的大小。数据波动越大,方差越大;数据波动越小,方差越小.
【典题 5】在发生某公共卫生事件期间,有专业机构认为该事件在一段事时间内没有发生大规模群体感染的标志是 “连续 日,每天新增疑似病例不超过 人”.过去 日,甲、乙、丙、丁四地新增疑似病例数据信息如下:
甲地:中位数为 ,众数为 ;
乙地:总体平均数为 ,总体方差为 ;
丙地:总体平均数为 ,总体方差大于 ;
丁地:总体平均数为 ,中位数为 .
则甲、乙、丙、丁四地中,一定没有发生大规模群体感染的是 地
【解析】(要每天军不超过 人方能确定没发生大规模群体感染,即 个数不出现极端数值)
根据题意,依次分析选项:
对于甲地:中位数为 ,众数为 ,则从小排到大的数据形式是 ;
有可能出现超过 人的情况,如数据 ,
出现了每天新增疑似病例超过 人的情况,可能发生大规模群体感染;
② 对于丙地,若要满足题意,则总和是 ,且不能 个数都是 ,
对于数据 ,总体平均数为 ,总体方差大于 ,
而出现了每天新增疑似病例超过 人的情况,可能发生大规模群体感染;
③ 对于丁地,平均数与中位数不能限制极端值的出现,则有可能出现超过 人的情况,可能发生大规模群体感染,比如 ;
④ (甲丙丁都排除了,那如何证明乙地是一定没有发生大规模群体感染?用反证法)
对于乙地,假设过去 天新增疑似病例数据存在一个数据 ,,
而总体平均数为 ,则总体方差 ,故不成立,
故假设不成立,故符合没有发生大规模群体感染的标志,一定没有发生大规模群体感染;
故答案为:乙.
【点拨】
(1) 先明确众数、平均数、众数对极端数值的出现影响较小,了解满足各项的要求的数据形
式,再通过举反例进行排除.
(2) 当证明含 “一定”“唯一”“至多”“至少” 等字眼的命题或从正面较难求解的,可尝试间接证明方法 -- 反证法.
【典题 6】 (多选) 气象意义上从春季进入夏季的标志为 “当且仅当连续 天每天日平均温度不低于 ”.现有甲、乙、丙三地连续 天日平均温度的记录数据(数据均为正整数,单位 ) 且满足以下条件:
甲地: 个数据的中位数是 ,众数是 ;
乙地: 个数据的中位数是 ,平均数是 ;
丙地: 个数据有 个是 ,平均数是 ,方差是 .
根据以上数据,下列统计结论正确的是 ( )
A.甲地进入了夏季
B.乙地进入了夏季
C.不能确定丙地进入了夏季
D.恰有 地确定进入了夏季
【解析】甲地: 个数据由小到大排,
则 ,其中 ,满足进入夏季的标志;
乙地:将 个数据由小到大排,则 ,其中 ,
则 ,而 ,
故 ,其中必有一个小于 ,故不满足一定进入夏季的标志;
丙地:设 个数据为 ,且 ,
由方差公式可知:
,
则 ,
不妨设 ,,
则 均大于 ,但 不确定是否大于 ,故不能确定丙地进入夏天.
故选:.
巩固练习
1. (★) 以下数据为参加数学竞赛决赛的 人的成绩:(单位:分)
.
则这 人成绩的第 百分位数是 .
2.(★) 已知甲、乙两组数据(已按从小到大的顺序排列):
甲组:;
乙组:.
若这两组数据的 百分位数、 百分位数分别相等,则 等于 .
3. (★) 某同学将全班某次数学考试成绩整理成频率分布直方图后,并将每个小矩形上方线段的中点连接起来得到频率分布折线图 (如图所示),据此估计此次考试成绩的众数是 ( )
A. B. C. D.
4. (★★) 在某次测量中得到 的样本数据如下:,.若 的样本数据恰好是 的样本数据都减去 后得到的数据,则关于 , 两样本数据特征的下列说法中,正确的是 ( )
A., 样本数据的众数为 B., 样本数据的方差相同
C., 样本数据的平均数相同 D., 样本数据的中位数相同
5. (★★) 下列命题中不正确的是( )
A.一组数据 的众数大于中位数
B.数据 的 分位数为
C.若甲组数据的方差为 ,乙组数据为 ,,,,,则这两组数据中较稳定的是乙
D.为调查学生每天平均阅读时间,某中学从在校学生中,利用分层抽样的方法抽取初中生 人,高中生 人.经调查,这 名初中生每天平均阅读时间为 分钟,这 名高中生每天平均阅读时间为 分钟,那么被抽中的 名学生每天平均阅读时间为 分钟
6.(★★) 已知数据 ,,,…, 是杭州市 个普通职工的 2016 年 10 月份的收入 (均不超过 万元),设这 个数据的中位数为 ,平均数为 ,方差为 ,如果再加上马云 2016 年 10 月份的收入 (约 亿元),则相对于 、、,这 个月收入数据 ( )
A.平均数可能不变,中位数可能不变,方差可能不变
B.平均数大大增大,中位数可能不变,方差也不变
C.平均数大大增大,中位数一定变大,方差可能不变
D.平均数大大增大,中位数可能不变,方差变大
7. (★★) 设样本 ,,…, 数据的平均值和方差分别为 和 ,若 ( 为非零实数,),则 ,,…, 的均值和方差分别为 ( )
A., B., C., D.,
8. (★★★)(多选) 在全球新型冠状病毒流行期间,为了建立指标显示疫情已受控制,以便向该地区居民显示可以过正常生活,有公共卫生专家建议的指标是 “连续 天每天新增感染人数不超过 人”,根据连续 天的新增病例数计算,下列各项中,一定符合上述指标的是( )
A.平均数 B.标准差
C.平均数 且极差小于或等于 D.众数等于 且极差小于或等于
9. (★★★) (多选) 甲同学投掷骰子 次,并请乙同学将向上的点数记录下来,计算出平均数和方差.由于记录遗失,乙同学只记得这五个点数的平均数为 ,方差在区间 内,则这五个点数( )
A.众数可能为 B.中位数可能为 C.一定不会出现 D.出现 的次数不超过两次
参考答案
-
【答案】
【解析】该组数据从小到大排列为:
,.
且 ,
所以这 人成绩的第 百分位数是 .
故答案为:. -
【答案】
【解析】因为 ,,
所以乙组的 百分位数为 ,甲组的 百分位数为 ,
则 . -
【答案】
【解析】根据频率分布折线图,得;折线的最高点对应的值是 ,
据此估计此次考试成绩的众数是 .故选:. -
【答案】
【解析】 在某次测量中得到 的样本数据如下:.
若 的样本数据恰好是 的样本数据都减去 后得到的数据,
样本数据的众数是 和 , 样本数据的众数是 和 ,故 错误;
, 样本数据的方差相同,故 正确;
样本数据的平均数比 样本数据的平均数大 ,故 错误;
样本数据的中位数比 样本数据的中位数大 ,故 错误.
故选:. -
【答案】
【解析】选项 的众数为 ,中位数为 ,
故相等,所以 错误,
选项 :将数据从小到大排列为:,
则它们的 分位数为 ,即为 ,故 正确,
选项 :乙组数据的平均值为 ,
所以方差为
所以这两组数据中较稳定的是乙,故 正确,
选项 :被抽中的 名学生每天平均阅读时间为 ,故 正确,
故选:. -
【答案】
【解析】 数据 是上海普通职工 个人的年收入,
而 为世界首富的年收入
则 会远大于 ,
故这 个数据中,年收入平均数大大增大,
但中位数可能不变,也可能稍微变大,
但由于数据的集中程序也受到 比较大的影响,而更加离散,则方差变大
故选 -
【答案】
【解析】根据题意,样本 ,,…, 数据的平均值和方差分别为 和 ,
则有 ,
,
对于 ;
则有 ,
,
故选:. -
【答案】
【解析】 错,举反例:,其平均数 ,不符合指标,
错,举反例:,平均数 ,且标准差 ,不符合指标,
对,若极差等于 或 ,在 的条件下,显然符合指标;若极差等于 且 ,
则每天新增感染人数的最小值与最大值有下列可能:(1),,(2),,(3),,符合指标,
对,若众数等于 且极差小于或等于 ,则最大值不超过 ,符合指标.
故选:. -
【答案】
【解析】对于 ,向上的点数为 时,众数为 ,平均数为 ,
方差为 ,故 正确;
若中位数为 ,设五次数据从小到大为:,则 ,
,
,,矛盾,故 错误;
若出现了 ,则其它四次和为 ,即数据为 ,
方差为 ,矛盾,故 正确;
若出现 次 ,则其它 次和为 ,这两次为 ,,
方差为 ,矛盾,故 正确.
故选:.
【题型二】频率直方图的运用
【典题 1】 某校从参加高一年级期末考试的学生中抽出 名学生,将其成绩 (均为整数) 分成六段 ,,,,, 后,画出如图所示部分频率分布直方图.观察图形,回答下列问题:
(1) 求第四小组的频率,并补全这个频率分布直方图;
(2) 估计这次考试成绩的中位数 (结果取整数值);
(3) 估计这次考试的众数、平均分、方差.
【解析】(1) 因为各组的频率和等于 ,
故第四组的频率: ,
直方图如右所示.
(2) 成绩在 的频率为 ,
成绩在 的频率为:,
中位数在 内,
设中位数为 ,
中位数要平分直方图的面积,
,解得 .
即中位数为 .
(3) 频率最大的是 组,则众数是 ;
利用组中值估算抽样学生的平均分为:
估计这次考试的平均分是 (分).
方差 .
【点拨】
① 利用频率之和为 ,得到所有矩形面积之和为 ;
② 在频率直方图中
众数 = 最高那组的组中值;
平均数 = 每组的组中值 × 每组的面积之和;
方差 每组的概率之和;
中位数:设中位数为 ,则直线 能够把所有矩形的面积平分,即在直线 左边的矩形面积为 .
巩固练习
1.(★) 为了了解某种进口茶叶的质量 (单位:克),从中抽取若干包进行检查,获得样本的频率分布直方图如图所示.若已知样本中质量在 内的茶叶有 包,则样本容量为 ( )
A. B. C. D.
2.(★★) 某市高三数学抽样考试中,对 分以上 (含 分) 的成绩进行统计,其频率分布图如图所示,若 分数段的人数为 人,则 分数段的人数为 ( )
A. B. C. D.
3.(★★) 某市要对辖区内的中学教师的年龄进行调查,现从中随机抽出 名教师,已知抽到的教师年龄都在 岁之间,根据调查结果得出教师的年龄情况残缺的频率分布直方图如图所示,利用这个残缺的频率分布直方图估计该市辖区内中学教师的年龄的中位数大约是 ( )
A. 岁 B. 岁 C. 岁 D. 岁
4.(★★) (多选) 为了解某地农村经济情况,对该地农户家庭年收入进行抽样调查,将农户家庭年收入的调查数据整理得到如下频率分布直方图:
则下列结论正确的是( )
A.估计该地农户家庭年收入不低于 万元的农户比例为
B.估计该地农户家庭年收入的第三四分位数为 万元
C.估计该地农户家庭年收入的平均值不超过 万元
D.估计该地农户家庭年收入的中位数为 万元
5.(★★) (多选) 要坚持健康第一的教育理念,加强学校体育工作,推动青少年文化学习和体育锻炼协调发展.某学校对高一和高二年级每周在校体育锻炼时长进行了统计,得到数据(单位:小时) 如表:
高一年级在校体育锻炼时长
关于高一和高二年级在校体育锻炼时长,下列说法正确的是( )
A.高一年级时长的众数比高二年级的大
B.高一年级时长的平均数比高二年级的小
C.高一年级时长的中位数比高二年级的大
D.高一年级时长的方差比高二年级的大
6.(★★) 为对考生的月考成绩进行分析,某地区随机抽查了 名考生的成绩,根据所得数据画了如下的样本频率分布直方图.
(1) 求成绩在 的频率;
(2) 根据频率分布直方图算出样本数据的中位数;
(3) 为了分析成绩与班级、学校等方面的关系,必须按成绩再从这 人中用分层抽样方法抽出 人作进一步分析,则成绩在 的这段应抽多少人?
7.(★★) 某学校 名学生在一次百米测试中,成绩全部介于 秒与 秒之间,抽取其中 个样本,将测试结果按如下方式分成五组:第一组 ,第二组 ,第五组 ,如图是按上述分组方法得到的频率分布直方图.
(1) 若成绩小于 秒认为良好,求该样本在这次百米测试中成绩良好的人数;
(2) 请估计学校 名学生中,成绩属于第四组的人数;
(3) 请根据频率分布直方图,求样本数据的众数、中位数、平均数和方差.
参考答案
- 【答案】
【解析】 样本中质量在 内的茶叶有 包,
由频率分布直方图得质量在 内的频率为 ,
样本容量 .故选:. - 【答案】
【解析】根据频率分布直方图得 分数段的人数为 人,对应的频率是 ,
样本容量是 ; 分数段的人数 .
故选:. - 【答案】
【解析】根据频率和等于 得年龄在 岁之间的频率为
,
令 ,解得 ;
该市辖区内中学教师的年龄的中位数大约 岁.
故选:. - 【答案】
【解析】对于 ,该地农户家庭年收入不低于 万元的农户比例为 ,故 正确;
对于 ,该地农户家庭年收入的第三四分位数为 万元,
则 ,
解得 ,故 正确;
对于 ,该地农户家庭所收入的平均值为:
,故 错误;
对于 ,设该地农户家庭年收入的中位数为 万元,
则 ,即 ,
则中位数为 ,故 错误.
故选:. - 【答案】
【解析】对于高一年级,由表可进行下列计算:
时长众数为 ,时长平均数为 ,
时长中位数为
时长方差为 ;
对于高二年级,由频率分布直方图可进行下列计算:
时长众数为 ,时长平均数为 ,
时长中位数为 ,
时长方差为
.
由上可知:,, ,,
故选:. - 【答案】(1) (2) (3)
【解析】(1) 根据频率分布直方图,得;
成绩在 的频率为 ;.
(2) 因为 ,,
,且 ,
所以,样本数据的中位数为 (分);
(3) 成绩在 的频率为 ,
所以 名考生中成绩在 的人数为 (人),
再从 人用分层抽样方法抽出 人,
则成绩在 的这段应抽取 人. - 【答案】(1) (2) (3)
【解析】(1) 样本在这次百米测试中成绩良好的人数是:
(人);
(2) 学校 名学生中,成绩属于第四组的人数 (人);
(3) 由图可知众数落在第三组 ,是 ,
因为数据落在第一、二组的频率
数据落在第一、二、三组的频率 ,
所以中位数一定落在第三组 中,
假设中位数是 ,所以 ,
解得中位数 .
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· 阿里巴巴 QwQ-32B真的超越了 DeepSeek R-1吗?
· 如何调用 DeepSeek 的自然语言处理 API 接口并集成到在线客服系统
· 【译】Visual Studio 中新的强大生产力特性
· 2025年我用 Compose 写了一个 Todo App