8.3 列联表与独立性检验
基础知识
2X2列联表
设\(A\) ,\(B\)为两个变量,每一个变量各有两种等级\(A_1\),\(A_2\)和\(B_1\),\(B_2\),将同时符合\((A_1,B_1 )\),\((A_2,B_1 )\),\((A_1,B_2 )\),\((A_2,B_2 )\)的个体数量排列成一个\(2×2\)表格,这是\(2×2\)列联表,如下表.
分类变量 | \(A_1\) | \(A_2\) | 合计 |
---|---|---|---|
\(B_1\) | \(a\) | \(b\) | \(a+b\) |
\(B_2\) | \(c\) | \(d\) | \(c+d\) |
合计 | \(a+c\) | \(b+d\) | \(n=a+b+c+d\) |
【例】 为研究吸烟是否与肺癌的关系,某研究所调查\(9965\)人,其中非吸烟者中非肺癌患者\(7775\)人,肺癌患者\(42\)人,吸烟者中非肺癌患者\(2099\)人,肺癌患者\(49\)人,则可得\(2×2\)列联表.
非肺癌患者 | 肺癌患者 | 合计 | |
---|---|---|---|
非吸烟者 | \(7775\) | \(42\) | \(7817\) |
吸烟者 | \(2099\) | \(49\) | \(2148\) |
合计 | \(9874\) | \(91\) | \(9965\) |
独立性检验
根据\(2×2\)列联表中的数据判断两个变量\(A\) ,\(B\)是否独立的问题叫\(2×2\)列联表的独立性检验.
\(\chi^2\) 的计算公式
若要推断的论述为“\(A\)与\(B\)有关系”,则\(\chi^2\)的值越大,说明“\(A\)与\(B\)有关系”成立的可能性越大.
如下表,若\(\chi^2=8\)时,
因为\(8>7.879\),所以有\(1-0.005=99.5\%\)的把握认为\(A\)与\(B\)之间有关;
而\(8<10.828\),所以没有\(1-0.001=99.9\%\)的把握认为\(A\)与\(B\)之间有关.
\(p(\chi^2≥x_α)\) |
\(0.1\) | \(0.05\) | \(0.010\) | \(0.005\) | \(0.001\) |
---|---|---|---|---|---|
\(x_α\) | \(2.706\) | \(3.841\) | \(6.635\) | \(7.879\) | \(10.828\) |
应用独立性检验解决实际问题大致应包括以下几个主要环节
(1) 提出另假设\(H_0:X\)和\(Y\)相互独立,并给出在问题中的解释;
(2) 根据抽样数据整理出\(2×2\)列联表,计算\(\chi^2\)的值,并与临界值\(x_α\)比较;
(3) 根据检验规则得出推断结论;
(4) 在\(X\)和\(Y\)不独立的情况下,根据需要,通过比较相应的频率,分析\(X\)和\(Y\)间的影响规律.
基本方法
【题型1】 用列联表和等高条形图分析两变量间的关系
【典题1】 某生产线上,质量监督员甲在生产现场时,\(990\)件产品中有合格品\(982\)件,次品\(8\)件;不在生产现场时,\(510\)件产品中有合格品\(493\)件,次品\(17\)件.试利用图、表判断监督员甲在不在生产现场对产品质量好坏有无影响.
解析 根据题目所给数据得如下\(2×2\)列联表:
合格品数 | 次品数 | 总计 | |
---|---|---|---|
甲在生产现场 | \(982\) | \(8\) | \(990\) |
甲不在生产现场 | \(493\) | \(17\) | \(510\) |
总计 | \(1 475\) | \(25\) | \(1 500\) |
\(\because ad-bc=982\times 17-8\times 493=12 750\),
\(\therefore ad-bc\)比较大,说明甲不在生产现场与产品质量好坏有关系.
相应的等高条形图如图所示.
图中两个深色条的高分别表示甲在生产现场和甲不在生产现场样本中次品数的频率.从图中可以看出,甲不在生产现场样本中次品数的频率明显高于甲在生产现场样本中次品数的频率.因此可以认为质量监督员甲在不在生产现场与产品质量好坏有关系.
【巩固练习】
1.观察下列各图,其中两个分类变量\(x\),\(y\)之间关系最强的是( )
2.某学校对高三学生作了一项调查发现:在平时的模拟考试中,性格内向的学生\(426\)人中有\(332\)人在考前心情紧张,性格外向的学生\(594\)人中有\(213\)人在考前心情紧张,作出等高条形图,利用图形判断考前心情紧张与性格类别是否有关系.
参考答案
-
答案 \(D\)
解析 在四幅图中,\(D\)图中的两个深色条的高相差最明显,说明两个分类变量之间关系最强. -
解析 作列联表如下:
性格内向 | 性格外向 | 总计 | |
---|---|---|---|
考前心情紧张 | \(332\) | \(213\) | \(545\) |
考前心情不紧张 | \(94\) | \(381\) | \(475\) |
总计 | \(426\) | \(594\) | \(1 020\) |
\(\because ad-bc=332\times 381-213\times 94=106 470\),
\(\therefore ad-bc\)比较大,说明考前紧张与性格类型有关.
图中阴影部分表示考前心情紧张与考前心情不紧张中性格内向的比例,从图中可以看出考前紧张的样本中性格内向占的比例比考前心情不紧张样本中性格内向占的比例高,可以认为考前紧张与性格类型有关.
【题型2】 独立性检验与应用
【典题1】 (多选)经过对\(K^2\)的统计量的研究,得到了若干个临界值,当\(K^2\)的观测值\(k>3.841\)时,我们( )
A.在犯错误的概率不超过\(0.05\)的前提下可认为\(A\)与\(B\)有关
B.在犯错误的概率不超过\(0.05\)的前提下可认为\(A\)与\(B\)无关
C.有\(99\%\)的把握说\(A\)与\(B\)有关
D.有\(95\%\)的把握说\(A\)与\(B\)有关
解析 根据独立性检验原理知,当\(K^2\)的观测值\(k>3.841\)时,
我们有以下结论:在犯错误的概率不超过\(0.05\)的前提下可认为A与B有关;
即有\(95\%\)的把握说\(A\)与\(B\)有关;
所以选项\(A\)、\(D\)正确.
故选:\(AD\).
【典题2】 某网络平台从购买该平台某课程的客户中,随机抽取了\(100\)位客户的数据,并将这\(100\)个数据按学时数,客户性别等进行统计,整理得到如表;
学时数 | $[5,10)$ | $[10,15)$ | $[15,20)$ | $[20,25)$ | $[25,30)$ | $[30,35)$ | $[35,40)$ |
男性 | $18$ | $12$ | $9$ | $9$ | $6$ | $4$ | $2$ |
女性 | $2$ | $4$ | $8$ | $2$ | $7$ | $13$ | $4$ |
(1)根据上表估计男性客户购买该课程学时数的平均值(同一组中的数据用该组区间的中点值作代表,结果保留小数点后两位);
(2)从这\(100\)位客户中,对购买该课程学时数在\(20\)以下的女性客户按照分层抽样的方式随机抽取\(7\)人,再从这\(7\)人中随机抽取\(2\)人,求这\(2\)人购买的学时数都不低于\(15\)的概率.
(3)将购买该课程达到\(25\)学时及以上者视为“十分爱好该课程者”,\(25\)学时以下者视,为“非十分爱好该课程者”.请根据已知条件完成以下\(2×2\)列联表,并判断是否有\(99.9\%\)的把握认为“十分爱好该课程者”与性别有关?
非十分爱好该课程者 | 十分爱好该课程者 | 合计 | |
---|---|---|---|
男性 | |||
女性 | |||
合计 | \(100\) |
附:\(K^2=\dfrac{n(a d-b c)^2}{(a+b)(c+d)(a+c)(b+d)}\),其中\(n=a+b+c+d\).
\(P\left(K^2 \geq k_0\right)\) |
\(0.100\) | \(0.050\) | \(0.025\) | \(0.010\) | \(0.001\) |
---|---|---|---|---|---|
\(k_0\) | \(2.706\) | \(3.841\) | \(5.024\) | \(6.635\) | \(10.828\) |
解析 (1)由题意知,在\(100\)位购买该课程的客户中,男性客户购买该课程学时数的平均值为\(\bar{x} =\dfrac{1}{60}(7.5\times 18+12.5\times 12+17.5\times 9+22.5\times 9+27.5\times 6+32.5\times 4+37.5\times 2)\approx 16.92\);
所以估计男性客户购买该课程学时数的平均值为\(16.92\).
(2)设“所抽取的\(2\)人购买的学时数都不低于\(15\)为事件\(A\),
依题意按照分层抽样的方式分别在学时数为\([5,10)\),\([10,15)\),\([15,20)\)的女性客户中抽取\(1\)人(设为\(a\)),\(2\)人(设为\(A\) ,\(B\)),\(4\)人,(设为\(c_1\),\(c_2\),\(c_3\),\(c_4\)),
从\(7\)人中随机抽取\(2\)人所包含的基木事件为:\(aA,aB,ac_1,ac_2,ac_3,ac_4,AB,Ac_1,Ac_2\)
,\(Ac_3,Ac_4,Bc_1,Bc_2,Bc_3,Bc_4,c_1 c_2,c_1 c_3\),\(c_1 c_4,c_2 c_3,c_2 c_4,c_3 c_4\),共\(21\)种,
其中事件\(A\)所包含的基本事件为:\(c_1 c_2,c_1 c_3,c_1 c_4,c_2 c_3,c_2 c_4,c_3 c_4\),共\(6\)个,
则事件\(A\)发生的概率 \(P=\dfrac{6}{21}=\dfrac{2}{7}\).
(3)依题意得\(2×2\)列联表如下
非十分爱好该课程者 | 十分爱好该课程者 | 合计 | |
---|---|---|---|
男性 | \(48\) | \(12\) | \(60\) |
女性 | \(16\) | \(24\) | \(40\) |
合计 | \(64\) | \(36\) | \(100\) |
则 \(K^2=\dfrac{n(a d-b c)^2}{(a+b)(c+d)(a+c)(b+d)}=\dfrac{100(48 \times 24-16 \times 12)^2}{64 \times 36 \times 60 \times 40} \approx 16.667>10.828\).
故有\(99.9\%\)的把握认为“十分爱好该课程者”与性别有关.
【巩固练习】
1.在研究肥胖与高血压的关系时,通过收集数据、整理分析数据得到“高血压与肥胖有关”的结论,并且在犯错误的概率不超过\(0.01\)的前提下认为这个结论是成立的,下列说法中正确的是( )
A.在\(100\)个肥胖的人中至少有\(99\)人患有高血压
B.肥胖的人至少有\(99\%\)的概率患有高血压
C.在\(100\)个高血压患者中一定有肥胖的人
D.在\(100\)个高血压患者中可能没有肥胖的人
2.为了研究高中学生对乡村音乐的态度(喜欢和不喜欢两种态度)与性别的关系,运用\(2×2\)列联表进行独立性检验,经计算\(K^2=8.01\),附表如表:
\(P\left(K^2 \geq k_0\right)\) |
\(0.100\) | \(0.050\) | \(0.025\) | \(0.010\) | \(0.001\) |
---|---|---|---|---|---|
\(k_0\) | \(2.706\) | \(3.841\) | \(5.024\) | \(6.635\) | \(10.828\) |
参照附表,得到的正确的结论是( )
A.有\(99\%\)以上的把握认为“喜欢乡村音乐与性别有关”
B.有\(99\%\)以上的把握认为“喜欢乡村音乐与性别无关”
C.在犯错误的概率不超过\(0.1\%\)的前提下,认为“喜欢乡村音乐与性别有关”
D.在犯错误的概率不超过\(0.1\%\)的前提下,认为“喜欢乡村音乐与性别无关”
3.大学生和研究生毕业的一个随机样本给出了关于所获取学位类别与学生性别的分类数据如下表所示:
性别 | 学位 | 合计 | |
硕士 | 博士 | ||
男 | $162$ | $27$ | $189$ |
女 | $143$ | $8$ | $151$ |
合计 | $305$ | $35$ | $340$ |
根据以上数据,则( )
A.性别与获取学位类别有关 \(\qquad \qquad \qquad \qquad\) B.性别与获取学位类别无关
C.性别决定获取学位的类别 \(\qquad \qquad \qquad \qquad\) D.以上都是错误的
4.假设有两个分类变量\(X\)与\(Y\),它们可能的取值分别为\(\{x_1,x_2 \}\)和\(\{y_1,y_2 \}\),其\(2×2\)列联表如下:
\(y_1\) | \(y_2\) | 总计 | |
---|---|---|---|
\(x_1\) | \(a\) | \(b\) | \(a+b\) |
\(x_2\) | \(c\) | \(d\) | \(c+d\) |
总计 | \(a+c\) | \(b+d\) | \(a+b+c+d\) |
以下各组数据中,对于同一样本能说明\(x\)与\(y\)有关系的可能性最大的一组为( )
A.\(a=5\),\(b=4\),\(c=3\),\(d=2\) \(\qquad \qquad \qquad \qquad\) B.\(a=5\),\(b=3\),\(c=4\),\(d=2\)
C.\(a=2\),\(b=3\),\(c=4\),\(d=5\) \(\qquad \qquad \qquad \qquad\) D.\(a=2\),\(b=3\),\(c=5\),\(d=4\)
5.某医疗研究所为 了检验某种血清预防感冒的作用,把\(500\)名使用血清的人与另外\(500\)名未使用血清的人一年中的感冒记录 作比较,提出假设\(H_0:\)“这种血清不能起到预防感冒的作用”,利用\(2×2\)列联表计算得\(K^2\approx 3.918\),经查临界值表知\(P(K^2≥3.841)\approx 0.05\).则下列结论中,正确结论的序号是\(\underline{\quad \quad}\).
①有\(95\%\)的把握认为“这种血清能起到预防感冒的作用”;
②若某人未使用该血清,那么他在一年中有\(95\%\)的可能性得感冒;
③这种血清预防感冒的有效率为\(95\%\);
④这种血清预防感冒的有效率为\(5\%\).
6.为调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了\(500\)位老年人,结果如下:
男 | 女 | |
---|---|---|
需要 | \(40\) | \(30\) |
不需要 | \(160\) | \(270\) |
(1)估计该地区老年人中,需要志愿者提供帮助的老年人的比例;
(2)能否在犯错误的概率不超过\(0.01\)的前提下认为该地区的老年人是否需要志愿者提供帮助与性别有关?
附:
\(P\left(K^2 \geq k\right)\) |
\(0.050\) | \(0.010\) | \(0.001\) |
---|---|---|---|
\(k\) | \(3.841\) | \(6.635\) | \(10.828\) |
\(K^2=\dfrac{n(a d-b c)^2}{(a+b)(c+d)(a+c)(b+d)}\) ,其中\(n=a+b+c+d\).
7.为研制新冠肺炎的疫苗,某生物制品研究所将所研制的某型号疫苗用在小白鼠身上进行科研和临床试验,得到如表统计数据:
未感染病毒 | 感染病毒 | 总计 | |
---|---|---|---|
未注射疫苗 | \(40\) | \(p\) | \(x\) |
注射疫苗 | \(60\) | \(q\) | \(y\) |
总计 | \(100\) | \(100\) | \(200\) |
现从未注射疫苗的小白鼠中任取\(1\)只,取到“感染病毒”的小白鼠的概率为 \(\dfrac{3}{5}\).
(1)能否有\(99.5\%\)的把握认为注射此疫苗有效?
(2)在感染病毒的小白鼠中,按未注射疫苗和注射疫苗的比例抽取\(5\)只进行病理分析,然后从这\(5\)只小白鼠中随机抽取\(3\)只对注射疫苗的情况进行核实,求恰有\(1\)只为注射过疫苗的概率.
附:\(K^2=\dfrac{n(a d-b c)^2}{(a+b)(c+d)(a+c)(b+d)}\),其中\(n=a+b+c+d\).
\(P\left(K^2 \geq k_0\right)\) |
\(0.05\) | \(0.010\) | \(0.005\) | \(0.001\) |
---|---|---|---|---|
\(k_0\) | \(3.841\) | \(6.635\) | \(7.879\) | \(10.828\) |
8.近年来我国电子商务行业迎来篷布发张的新机遇,2015年双11期间,某购物平台的销售业绩高达\(918\)亿人民币,与此同时,相关管理部门推出了针对电商的商品和服务的评价体系,现从评价系统中选出\(200\)次成功交易,并对其评价进行统计,对商品的好评率为\(0.6\),对服务的好评率为\(0.75\),其中对商品和服务都做出好评的交易为\(80\)次.
(1)完成商品和服务评价的\(2×2\)列联表,并说明是否可以在犯错误概率不超过0.1%的前提下,认为商品好评与服务好评有关?
(2)若将频率视为概率,某人在该购物平台上进行的\(5\)次购物中,设对商品和服务全好评的次数为随机变量\(X\).
①求对商品和服务全好评的次数\(X\)的分布列(概率用组合数算式表示);
②求\(X\)的数学期望和方差.
参考数据及公式如下:
\(P\left(K^2 \geq k_0\right)\) |
\(0.050\) | \(0.010\) | \(0.005\) | \(0.001\) |
---|---|---|---|---|
\(k_0\) | \(3.841\) | \(6.635\) | \(7.879\) | \(10.828\) |
\(K^2=\dfrac{n(a d-b c)^2}{(a+b)(c+d)(a+c)(b+d)}\),其中\(n=a+b+c+d\).
参考答案
-
答案 \(D\)
解析 “高血压与肥胖有关”,并且在犯错误的概率不超过\(0.01\)的前提下认为这个结论是成立的,
表示有\(99\%\)的把握认为这个结论成立,与多少个人患高血压没有关系,
也不是说“肥胖的人就是至少有\(99\%\)的概率患有高血压”,
只有选项\(D\)正确.
故选:\(D\). -
答案 \(A\)
解析 \(\because K^2=8.01>6.635\),
\(\therefore\)在犯错误概率不超过\(0.1\)的前提下认为“喜欢乡村音乐与性别有关”,
即有\(99\%\)以上的把握认为“喜欢乡村音乐与性别有关”.
故选:\(A\). -
答案 \(A\)
解析 由列联表可得:\(K^2\)的观测值 \(k=\dfrac{340 \times(162 \times 8-143 \times 27)^2}{189 \times 151 \times 305 \times 35} \approx 7.3 .4>6.635\),
所以性别与获取学位的类别有关,故选\(A\). -
答案 \(D\)
解析 若\(X\),\(Y\)相互独立,则\(\dfrac{a}{c}=\dfrac{b}{d} \text {, }\),即\(ad-bc=0\),
故\((ad-bc)^2\)越小,说明\(X\),\(Y\)有关系的可能性越小,
反之,\((ad-bc)^2\)越大,说明\(X\),\(Y\)有关系的可能性越大,
对于\(A\),\((ad-bc)^2=4\),对于\(B\),\((ad-bc)^2=4\),
对于\(C\),\((ad-bc)^2=4\),对于\(D\),\((ad-bc)^2=49\).
故选:\(D\). -
答案 ①
解析 \(K^2\approx 3.918≥3.841\),而\(P(K^2≥3.841)\approx 0.05\),所以有\(95\%\)的把握认为“这种血清能起到预防感冒的作用”.要注意我们检验的是假设是否成立和该血清预防感冒的有效率是没有关系的,不是同一个问题,不要混淆. -
答案 (1) \(14\%\);(2) 在犯错误的概率不超过\(0.01\)的前提下认为该地区的老年人是否需要帮助与性别有关
解析 (1)调查的\(500\)位老年人中有\(70\)位需要志愿者提供帮助,因此该地区老年人中,需要帮助的老年人的比例的估计值为 \(\dfrac{70}{500}=14 \%\).
(2)由列联表 中数据,得\(K^2\)观测值为 \(k=\dfrac{500 \times(40 \times 270-30 \times 160)^2}{200 \times 300 \times 70 \times 430} \approx 9.967\).
由于\(9.967>6.635\),所以在犯错误的概率不超过\(0.01\)的前提下认为该地区的老年人是否需要帮助与性别有关. -
答案 (1) 有\(99.5\%\)的把握认为注射此疫苗有效;(2) \(\dfrac{3}{5}\)
解析 (1)由题意可\(\dfrac{p}{40+p}=\dfrac{3}{5}\),解得\(p=60\),
\(\therefore q=40\),\(x=y=100\),
\(\therefore 2\times 2\)列联表如下表所示:
未感染病毒 | 感染病毒 | 总计 | |
---|---|---|---|
未注射疫苗 | \(40\) | \(60\) | \(100\) |
注射疫苗 | \(60\) | \(40\) | \(100\) |
总计 | \(100\) | \(100\) | \(200\) |
\(\therefore K^2=\dfrac{200 \times(40 \times 40-60 \times 60)^2}{100 \times 100 \times 100 \times 100}=8>7.879\),
\(\therefore\)有\(99.5\%\)的把握认为注射此疫苗有效.
(2)设“恰有\(1\)只为注射过疫苗”为事件\(A\),
由于在感染病毒的小白鼠中,按未注射疫苗和注射疫苗的比例\(\dfrac{60}{40}=\dfrac{3}{2}\)抽取,
\(\therefore\)抽取的\(5\)只小白鼠中有3只未注射疫苗,分别用\(1\),\(2\),\(3\)来表示,\(2\)只已注射疫苗的小白鼠分别用\(a\),\(b\)来表示,
从这\(5\)只小白鼠中随机抽取\(3\)只,可能的情况有:\((1,2,3)\),\((1,2,a)\),\((1,2,b)\),\((1,3,a)\),\((1,3,b)\),\((1,a,b)\),\((2,3,a)\),\((2,3,b)\),\((2,a,b)\),\((3,a,b)\),共\(10\)种,
其中恰有\(1\)只为注射过疫苗有:\((1,2,a)\),\((1,2,b)\),\((1,3,a)\),\((1,3,b)\),\((2,3,a)\),\((2,3,b)\),共\(6\)种,
\(\therefore P(A)=\dfrac{6}{10}=\dfrac{3}{5}\),
即恰有\(1\)只为注射过疫苗的概率为 \(\dfrac{3}{5}\).
- 答案 (1) 可以在犯错误概率不超过\(0.1\%\)的前提下,认为商品好评与服务好评有关;
(2) ①略 ②\(EX=2\),\(DX=1.2\)
解析 (1)由题意可得关于商品和服务评价的\(2×2\)列联表:
对服务好评 | 对服务不满意 | 合计 | |
---|---|---|---|
对商品好评 | \(80\) | \(40\) | \(120\) |
对商品不满意 | \(70\) | \(10\) | \(80\) |
合计 | \(150\) | \(50\) | \(200\) |
得\(K^2=\dfrac{200 \times(80 \times 10-40 \times 70)^2}{150 \times 50 \times 120 \times 80} \approx 11.111>10.828\),
可以在犯错误概率不超过\(0.1\%\)的前提下,认为商品好评与服务好评有关;
①每次购物时,对商品和服务全好评的概率为\(0.4\),
且\(X\)的取值可以是\(0\),\(1\),\(2\),\(3\),\(4\),\(5\),\(X~B(5,0.4)\).
\(P(X=0)=0.6^5\); \(P(X=1)=C_5^1 \cdot 0.4 \cdot 0.6^4\);
\(P(X=2)=C_5^2 \cdot 0.4^2 \cdot 0.6^3\); \(P(X=3)=C_5^3 \cdot 0.4^3 \cdot 0.6^2\);
\(P(X=4)=C_5^4 \cdot 0.4^4 \cdot 0.6\); \(P(X=5)=0.4^5\),
②\(X\)的分布列
\(X\) | \(0\) | \(1\) | \(2\) | \(3\) | \(4\) | \(5\) |
---|---|---|---|---|---|---|
\(P\) | \(0.6^5\) | \(C_5^1 \cdot 0.4 \cdot 0.6^4\) | \(C_5^2 \cdot 0.4^2 \cdot 0.6^3\) | \(C_5^3 \cdot 0.4^3 \cdot 0.6^2\) | \(C_5^4 \cdot 0.4^4 \cdot 0.6\) | \(0.4^5\) |
\(EX=5\times 0.4=2\),\(DX=5\times 0.4\times 0.6=1.2\).
分层练习
【A组---基础题】
1.观察下面各等高条形图,其中两个分类变量关系最强的是( )
A. \(\qquad \qquad\)B.
C. \(\qquad \qquad\)D.
2.某工厂为了调查工人文化程度与月收入的关系,随机抽取了部分工人,得到如下列联表:
文化程度与月收入列联表 (单位:人)
月收入\(2 000\)元以下 | 月收入\(2 000\)元及以上 | 总计 | |
---|---|---|---|
高中文化以上 | \(10\) | \(45\) | \(55\) |
高中文化及以下 | \(20\) | \(30\) | \(50\) |
总计 | \(30\) | \(75\) | \(105\) |
由上表中数据计算得\(K^2\)的观测值\(k=\dfrac{105 \times(10 \times 30-20 \times 45)^2}{55 \times 50 \times 30 \times 75} \approx 6.109\),请估计认为“文化程度与月收入有关系”的把握是( )
A.\(1\%\) \(\qquad \qquad \qquad\) B.\(99\%\) \(\qquad \qquad \qquad\) C.\(2.5\%\) \(\qquad \qquad \qquad\) D.\(97.5\%\)
3.在对人们休闲方式的一次调查中,根据数据建立如下的\(2×2\)列联表:
休闲性别 | 看电视 | 运动 |
---|---|---|
男 | \(8\) | \(20\) |
女 | \(16\) | \(12\) |
为了判断休闲方式是滞与性别有关,根据表中数据,得到 \(x^2=\dfrac{56 \times(8 \times 12-20 \times 16)^2}{28 \times 28 \times 24 \times 32} \approx 4.667\),因为 \(3.841 \leqslant x^2 \leqslant 6.635\),所以判定休闲方式与性别有关系,那么这种判断出错的可能性至多为( )
(参考数据: \(P\left(x^2 \geqslant 3.841\right) \approx 0.05\), \(P\left(x^2 \geqslant 6.635\right) \approx 0.01\))
A.\(1\%\) \(\qquad \qquad \qquad \qquad\) B.\(99\%\) \(\qquad \qquad \qquad \qquad\) C.\(5\%\) \(\qquad \qquad \qquad \qquad\) D.\(95\%\)
4.疫苗是为预防、控制传染病的发生、流行,用于人体预防接种的预防性生物制品,其前期研发过程中,一般都会进行动物保护测试,为了考察某种疫苗预防效果,在进行动物试验时,得到如下统计数据:
未发病 | 发病 | 总计 | |
---|---|---|---|
未注射疫苗 | \(20\) | ||
注射疫苗 | \(30\) | ||
总计 | \(50\) | \(50\) | \(100\) |
附表及公式:\(K^2=\dfrac{n(a d-b c)^2}{(a+b)(c+d)(a+c)(b+d)}\),其中\(n=a+b+c+d\).
\(P\left(K^2 \geq k_0\right)\) |
\(0.050\) | \(0.010\) | \(0.005\) | \(0.001\) |
---|---|---|---|---|
\(k_0\) | \(3.841\) | \(6.635\) | \(7.879\) | \(10.828\) |
现从试验动物中任取一只,取得“注射疫苗”的概率为\(\dfrac{2}{5}\),则下列判断错误的是( )
A.注射疫苗发病的动物数为\(10\)
B.从该试验未注射疫苗的动物中任取一只,发病的概率为 \(\dfrac{2}{3}\)
C.能在犯错概率不超过\(0.001\)的前提下,认为疫苗有效
D.该疫苗的有效率为\(75\%\)
5.通过随机询问相同数量的不同性别大学生在购买食物时是否看营养说明,得知有\(\dfrac{1}{6}\)的男大学生“不看”,有\(\dfrac{1}{3}\)的女大学生“不看”,若有\(99\%\)的把握认为性别与是否看营养说明之间有关,则调查的总人数可能为( )
A.\(150\) \(\qquad \qquad \qquad \qquad\) B.\(170\) \(\qquad \qquad \qquad \qquad\) C.\(240\) \(\qquad \qquad \qquad \qquad\) D.\(175\)
6.(多选)“一粥一饭,当思来之不易”,道理虽简单,但每年我国还是有2000多亿元的餐桌浪费,被倒掉的食物相当于2亿多人一年的口粮.为营造“节约光荣,浪费可耻”的氛围,某市发起了“光盘行动”.某机构为调研民众对“光盘行动”的认可情况,在某大型餐厅中随机调查了\(90\)位来店就餐的客人,制成如表所示的列联表,通过计算得到\(K^2\)的观测值为\(9\).已知\(P(K^2≥6.635)=0.010\),\(P(K^2≥10.828)=0.001\),则下列判断正确的是( )
认可 | 不认可 | |
---|---|---|
\(40\)岁以下 | \(20\) | \(20\) |
\(40\)岁以上(含\(40\)岁) | \(40\) | \(10\) |
A.在该餐厅用餐的客人中大约有\(66.7\%\)的客人认可“光盘行动”
B.在该餐厅用餐的客人中大约有\(99\%\)的客人认可“光盘行动”
C.有\(99\%\)的把握认为“光盘行动”的认可情况与年龄有关
D.在犯错误的概率不超过\(0.001\)的前提下,认为“光盘行动”的认可情况与年龄有关
7.若由一个\(2×2\)列联表中的数据计算得\(K^2\)的观测值\(k\approx 6.630\),则判断“这两个分类变量有关系”时,犯错误的最大概率是\(\underline{\quad \quad}\).
参考数据:
\(P\left(K^2 \geq k_0\right)\) |
\(0.50\) | \(0.400\) | \(0.250\) | \(0.150\) | \(0.100\) | \(0.050\) | \(0.025\) | \(0.010\) | \(0.005\) |
---|---|---|---|---|---|---|---|---|---|
\(k_0\) | \(0.455\) | \(0.708\) | \(1.323\) | \(2.072\) | \(2.706\) | \(3.841\) | \(5.024\) | \(6.635\) | \(7.879\) |
8.在研究性别与吃零食这两个分类变量是否有关系时,下列说法中正确的是\(\underline{\quad \quad}\).
①若\(K^2\)的观测值\(k=6.635\),则我们在犯错误的概率不超过\(0.01\)的前提下认为吃零食与性别有关系,那么在\(100\)个吃零食的人中必有\(99\)人是女性;
②由独立性检验可知,在犯错误的概率不超过\(0.01\)的前提下认为吃零食与性别有关系时,如果某人吃零食,那么此人是女性的可能性为\(99\%\);
③由独立性检验可知,若\(K^2\)的观测值\(k=6.635\),则在犯错误的概率不超过\(0.01\)的前提下认为吃零食与性别有关系.
9.某班主任对全班\(50\)名学生作了一次调查,所得数据如表:
认为作业多 | 认为作业不多 | 总计 | |
---|---|---|---|
喜欢玩电脑游戏 | \(18\) | \(9\) | \(27\) |
不喜欢玩电脑游戏 | \(8\) | \(15\) | \(23\) |
总计 | \(26\) | \(24\) | \(50\) |
由表中数据计算得到\(K^2\)的观测值\(k\approx 5.059\),于是\(\underline{\quad \quad}\) (填“能”或“不能”)在犯错误的概率不超过\(0.01\)的前提下认为喜欢玩电脑游戏与认为作业多有关.
10.中国医药学院周医师从事原住民痛风流行率的研究,周医师发现原住民\(342\)人中,患有痛风的有\(40\)人,其中\(17\)位TG(三酸甘油酯)超出正常值\(160\),而非痛风组\(302\)人中有\(66\)位TG超出正常值.
(1)请根据上面信息列出\(2×2\)列联表;
(2)请分析痛风组与非痛风组其TG(三酸甘油酯)超过正常值\(160\)的比率是否有关系.
11.某公司为了解服务质量,随机调查了\(100\)位男性顾客和\(100\)位女性顾客,每位顾客对该公司的服务质量进行打分.已知这\(200\)位顾客所打的分数均在\([25,100]\)之间,根据这些数据得到如下的频数分布表:
顾客所打分数 | $[25,40)$ | $[40,55)$ | $[55,70)$ | $[70,85)$ | $[85,100]$ |
男性顾客人数 | $4$ | $6$ | $10$ | $30$ | $50$ |
女性顾客人数 | $6$ | $10$ | $24$ | $40$ | $20$ |
(1)估计这\(200\)位顾客所打分数的平均值(同一组数据用该组区间的中点值为代表).
(2)若顾客所打分数不低于\(70\)分,则该顾客对公司服务质量的态度为满意;若顾客所打分数低于\(70\)分,则该顾客对公司服务质量的态度为不满意.根据所给数据,完成下列\(2×2\)列联表,并根据列联表,判断是否有\(99\%\)的把握认为顾客对公司服务质量的态度与性别有关?
满意 | 不满意 | |
---|---|---|
男性顾客 | ||
女性顾客 |
附;\(K^2=\dfrac{n(a d-b c)^2}{(a+b)(c+d)(a+c)(b+d)}\),其中\(n=a+b+c+d\).
\(P\left(K^2 \geq k_0\right)\) |
\(0.050\) | \(0.010\) | \(0.001\) |
---|---|---|---|
\(k_0\) | \(3.841\) | \(6.635\) | \(10.828\) |
参考答案
-
答案 \(B\)
解析 等高条形图中有两个高度相同的矩形,每个矩形都有两个颜色,观察下方颜色区域的高度,如果两个高度差越大,则两个分类变量关系越强,观察四个选项可知,\(B\)项中带颜色区域的高度差最大,\(x\),\(y\)之间关系最强.故选:\(B\). -
答案 \(D\)
解析 由于\(6.109>5.024\),故在犯错误的概率不超过\(0.025\)的前提下,即有\(97.5\%\)的把握认为“文化程度与月收入有关系”. -
答案 \(C\)
解析 \(\because 3.841 \leqslant x^2 \leqslant 6.635\), \(P\left(x^2 \geqslant 3.841\right) \approx 0.05\), \(P\left(x^2 \geqslant 6.635\right) \approx 0.01\),
\(\therefore\)判断出错的可能性至多为\(5\%\),故选:\(C\). -
答案 \(D\)
解析 由题知:由现从试验动物中任取一只取得“注射疫苗”的概率为\(\dfrac{2}{5}\),可补充列联表,
未发病 | 发病 | 总计 | |
---|---|---|---|
未注射疫苗 | \(20\) | \(40\) | \(60\) |
注射疫苗 | \(30\) | \(10\) | \(40\) |
总计 | \(50\) | \(50\) | \(100\) |
故注射疫苗动物共\(40\)只,未注射为\(60\)只;\(A\)、\(B\)正确.
由附表及公式:\(K^2=\dfrac{n(a d-b c)^2}{(a+b)(c+d)(a+c)(b+d)}\),\(n=a+b+c+d\).
得: \(K^2=\dfrac{100 \times(20 \times 10-40 \times 30)^2}{60 \times 40 \times 50 \times 50}=16.67>10.828\),
故能在犯错概率不超过\(0.001\)的前提下认为疫苗有效.\(C\)正确.
在排除\(ABC\)选项可得答案.
故选:\(D\).
- 答案 \(C\)
解析 设男女大学生各有\(m\)人,根据题意画出\(2×2\)列联表,如下图:
看 | 不看 | 合计 | |
---|---|---|---|
男 | \(\dfrac{5}{6} m\) | \(\dfrac{1}{6} m\) | \(m\) |
女 | \(\dfrac{2}{3} m\) | \(\dfrac{1}{3} m\) | \(m\) |
合计 | \(\dfrac{3}{2} m\) | \(\dfrac{1}{2} m\) | \(2m\) |
所以\(x^2=\dfrac{2 m\left(\dfrac{5}{6} m \times \dfrac{1}{3} m-\dfrac{1}{6} m \times \dfrac{2}{3} m\right)^2}{\dfrac{3}{2} m \times \dfrac{1}{2} m \times m \times m}=\dfrac{2 m}{27}\),
因为有\(99\%\)的把握认为性别与对产品是否满意有关,
所以 \(\dfrac{2 m}{27}>6.635\),解得\(2m>179.145\),
所以总人数\(2m\)可能为\(240\),
故选:\(C\).
-
答案 \(AC\)
解析 \(\because K^2\)的观测值为\(9\),且\(P(K^2≥6.635)=0.010\),\(P(K^2≥10.828)=0.001\),
又\(\because 9>6.635\),但\(9<10.828\),
\(\therefore\)有\(99\%\)的把握认为“光盘行动”的认可情况与年龄有关,
或者说,在犯错误的概率不超过\(0.01\)的前提下,认为“光盘行动”的认可情况与年龄有关,
所以选项\(C\)正确,选项\(D\)错误,
由表可知认可“光盘行动”的人数为\(60\)人,
所以在该餐厅用餐的客人中认可“光盘行动”的比例为 \(\dfrac{60}{90} \times 100 \% \approx 66.7 \%\),
故选项\(A\)正确,选项\(B\)错误,
故选:\(AC\). -
答案 \(0.025\)
解析 根据数据计算得\(K^2\)的观测值\(k\approx 6.630>5.024\),
所以判断“这两个分类变量有关系”时,犯错误的最大概率是\(0.025\).
故答案为: \(0.025\). -
答案 ③
解析 ①若\(k=6.635\),我们有\(99\%\)的把握认为吃零食与性别有关系,不表示\(100\)个吃零食的人中必有\(99\)人是女性,故①不正确.
②从独立性检验可知有\(99\%\)的把握认为吃零食与性别有关系时,我们说某人吃零食,那么此人是女性的可能性为\(99\%\),所以②不正确.
③由独立性检验可知,若\(K^2\)的观测值\(k=6.635\),不表示在犯错误的概率不超过\(0.01\)的前提下认为吃零食与性别有关系,故③正确.
故答案为:③. -
答案 不能
解析 查表知若要在犯错误的概率不超过\(0.01\)的前提下认为喜欢玩电脑游戏与认为作业多有关,则临界值\(k_0=6.635\).本题中,\(k\approx 5.059<6.635\),所以不能在犯错误的概率不超过\(0.01\)的前提下认为喜欢玩电脑游戏与认为作业多有关. -
答案 (1)略 ;(2) 在犯错误的概率不超过\(0.005\)的前提下认为“TG超出正常值与痛风有关”
解析 (1)\(2×2\)列联表:
痛风 | 非痛风 | 合计 | |
---|---|---|---|
\(TG>160\) | \(17\) | \(66\) | \(83\) |
\(TG≤160\) | \(23\) | \(236\) | \(259\) |
合计 | \(40\) | \(302\) | \(342\) |
计算\(K^2\)的观测值\(k\)为\(8.1917\),
(2)\(P(K^2≥7.879)\approx 0.005\),
这说明在犯错误的概率不超过\(0.005\)的前提下认为“TG超出正常值与痛风有关”.
- 答案 (1) \(75.55\);(2) 有\(99\%\)的把握认为顾客对公司服务质量的态度与性别有关
解析 (1)由题意知,计算
\(\bar{x}=\dfrac{1}{200} \times\left(10 \times \dfrac{65}{2} 16 \times \dfrac{95}{2}+34 \times \dfrac{125}{2}+70 \times \dfrac{155}{2}+70 \times \dfrac{185}{2}\right)=75.55\),
所以估计这\(200\)位顾客所打分数的平均值约为\(75.55\).
(2)根据题意,填写列联表如下:
满意 | 不满意 | 合计 | |
---|---|---|---|
男性顾客 | \(80\) | \(20\) | \(100\) |
女性顾客 | \(60\) | \(40\) | \(100\) |
合计 | \(140\) | \(60\) | \(200\) |
根据表中数据,计算 \(K^2=\dfrac{200 \times(80 \times 40-20 \times 60)^2}{100 \times 100 \times 140 \times 60}=\dfrac{200}{21} \approx 9.524\),
因为\(9.524>6.635\),
所以有\(99\%\)的把握认为顾客对公司服务质量的态度与性别有关.
【B组---提高题】
1.在下列两个分类变量\(X\),\(Y\)的样本频数列联表中,可以判断\(X\),\(Y\)之间有无关系的是( )
\(y_1\) | \(y_2\) | 总计 | |
---|---|---|---|
\(x_1\) | \(a\) | \(b\) | \(a+b\) |
\(x_2\) | \(c\) | \(d\) | \(c+d\) |
总计 | \(a+c\) | \(b+d\) | \(a+b+c+d\) |
A.\(\left|\dfrac{a}{a+b}-\dfrac{b}{c+d}\right|\) \(\qquad\) B.\(\left|\dfrac{c}{a+b}-\dfrac{d}{c+d}\right|\) \(\qquad\) C. \(\left|\dfrac{b}{a+b}-\dfrac{c}{c+d}\right|\) \(\qquad\) D. \(\left|\dfrac{a}{a+b}-\dfrac{c}{c+d}\right|\)
2.长绒棉是世界上纤维品质最优的棉花,也是全球高端纺织品及特种纺织品的重要原料.新疆具有独特的自然资源优势,是我国最大的长绒棉生产基地,产量占全国长绒棉总产量的\(95\%\)以上.新疆某农科所为了研究不同土壤环境下棉花的品质,选取甲、乙两地实验田进行种植.在棉花成熟后采摘,分别从甲、乙两地采摘的棉花中各随机抽取\(50\)份样本,测定其马克隆值,整理测量数据得到如下\(2×2\)列联表(单位:份),其中\(a≥40且\)\(a∈N^*\).
注:棉花的马克隆值是反映棉花纤维细度与成熟度的综合指标,是棉纤维重要的内在质量指标之一.根据现行国家标准规定,马克隆值可分为\(A\) ,\(B\),\(C\)三个级别,\(A\)级品质最好,\(B\)级为标准级,\(C\)级品质最差.
\(A\)级或\(B\)级 | \(C\)级 | 合计 | |
---|---|---|---|
甲地 | \(a\) | \(50-a\) | \(50\) |
乙地 | \(80-a\) | \(a-30\) | \(50\) |
合计 | \(80\) | \(20\) | \(100\) |
当\(a=a_0\)时,有\(99\%\)的把握认为该品种棉花的马克隆值级别与土壤环境有关,则\(a_0\)的最小值为 \(\underline{\quad \quad}\).
附:\(K^2=\dfrac{n(a d-b c)^2}{(a+b)(c+d)(a+c)(b+d)}\),其中\(n=a+b+c+d\).
\(P\left(K^2 \geq k_0\right)\) |
\(0.050\) | \(0.010\) | \(0.001\) |
---|---|---|---|
\(k_0\) | \(3.841\) | \(6.635\) | \(10.828\) |
3.近期,湖北省武汉市等多个地区发生新型冠状病毒感染的肺炎疫情.为了尽快遏制住疫情,我国科研工作者坚守在科研一线,加班加点、争分夺秒与病毒抗争,夜以继日地进行研究.新型冠状病毒的潜伏期检测是疫情控制的关键环节之一.在传染病学中,通常把从致病刺激物侵入机体或对机体发生作用起,到机体出现反应或开始呈现该疾病对应的相关症状时止的这一阶段称为潜伏期.钟南山院士带领的研究团队统计了武汉市某地区\(10000\)名医学观察者的相关信息,并通过咽拭子核酸检测得到\(1000\)名确诊患者的信息如表格:
潜伏期(单位:天) | $[0,7]$ | $(7,14]$ | $(14,21]$ | $(21,28]$ |
人数 | $800$ | $190$ | $8$ | $2$ |
(1)求这\(1000\)名确诊患者的潜伏期样本数据的平均数\(\bar{x}\) (同一组数据用该组数据区间的中点值代表).
(2)新型冠状病毒的潜伏期受诸多因素影响,为了研究潜伏期与患者性别的关系,以潜伏期是否超过\(7\)天为标准进行分层抽样,从上述\(1000\)名患者中抽取\(100\)名,得到如下列联表.请将列联表补充完整,并根据列联表判断是否有\(90\%\)的把握认为潜伏期与患者性别有关.
潜伏期\(≤7\)天 | 潜伏期\(>7\)天 | 总计 | |
---|---|---|---|
男性患者 | \(12\) | ||
女性患者 | \(50\) | ||
总计 | \(100\) |
(3)由于采样不当、标本保存不当、采用不同类型的标本以及使用不同厂家试剂都可能造成核酸检测结果“假阴性”而出现漏诊.当核酸检测呈阴性时,需要进一步进行血清学\(IgM/IgG\)抗体检测,以弥补核酸检测漏诊的缺点.现对\(10\)名核酸检测结果呈阴性的人员逐一地进行血清检测,记每个人检测出\(IgM\)(\(IgM\)是近期感染的标志)呈阳性的概率为\(p(0<p<1)\)且相互独立,设至少检测了\(9\)个人才检测出\(IgM\)呈阳性的概率为\(f(p)\),求\(f(p)\)取得最大值时相应的概率\(p\).
附:\(K^2=\dfrac{n(a d-b c)^2}{(a+b)(c+d)(a+c)(b+d)}\) ,其中\(n=a+b+c+d\).
\(P(K^2\geq k_0)\) |
\(0.100\) | \(0.050\) | \(0.025\) | \(0.010\) | \(0.005\) | \(0.001\) |
---|---|---|---|---|---|---|
\(k_0\) | \(2.706\) | \(3.841\) | \(5.024\) | \(6.635\) | \(7.879\) | \(10.828\) |
参考答案
-
答案 \(D\)
解析 \(K^2=\dfrac{n(a d-b c)^2}{(a+b)(c+d)(a+c)(b+d)}\),
则分类变量\(X\)和\(Y\)有关系时,\(ad\)与\(bc\)差距会比较大,
由 \(\dfrac{a}{a+b}-\dfrac{c}{c+d}=\dfrac{a c+a d-a c-b c}{(a+b)(c+d)}=\dfrac{a d-b c}{(a+b)(c+d)}\),
故\(\dfrac{a}{a+b}\)与 \(\dfrac{c}{c+d}\)的值相差应该大,
即\(\left|\dfrac{a}{a+b}-\dfrac{c}{c+d}\right|\)的大小可以判断\(X\)、\(Y\)之间有无关系.
故选:\(D\). -
答案 \(46\)
解析 根据列联表中数据,计算\(K^2=\dfrac{100 \times[a(a-30)-(80-a)(50-a)]^2}{50 \times 50 \times 80 \times 20}=\dfrac{(a-40)^2}{4}\),
令\(\dfrac{(a-40)^2}{4}>6.635\),解得\(a>40+2 \sqrt{6.635}\), 或 \(a<40-2 \sqrt{6.635}\);
因为\(a≥40\)且\(a\in N^*\),且\(2.5<\sqrt{6.635}<3\),
所以\(a\)的最小值为\(46\),即\(a_0\)的最小值为\(46\).
故答案为:\(46\). -
答案 (1) \(4.984\) ;(2)略;(3) \(p=1-\dfrac{2 \sqrt{5}}{5}\)时,\(f(p)\)取得最大值.
解析 (1) \(\bar{x}=\dfrac{1}{1000} \times(3.5 \times 800+10.5 \times 190+17.5 \times 8+24.5 \times 2)=4.984\).
(2)补充完整的\(2×2\)列联表如下所示,
潜伏期\(≤7\)天 | 潜伏期\(>7\)天 | 总计 | |
---|---|---|---|
男性患者 | \(38\) | \(12\) | \(50\) |
女性患者 | \(42\) | \(8\) | \(50\) |
总计 | \(80\) | \(20\) | \(100\) |
\(\therefore K^2=\dfrac{100 \times(38 \times 8-12 \times 42)^2}{50 \times 50 \times 80 \times 20}=1<2.706\),
\(\therefore\)不能有\(90\%\)的把握认为潜伏期与患者性别有关.
(3)由 \(f(p)=p(1-p)^8+p(1-p)^9\),化简得 \(f(p)=p(1-p)^8(2-p)\),
令\(1-p=x\in (0,1)\),则\(p=1-x\),
\(f(p)=(1-x) x^8 (1+x)=(1-x^2 ) x^8\),
令\(g(x)=(1-x^2 ) x^8\),\(x\in (0,1)\),
则\(g'(x)=2x^7 (4-5x^2)\),
令\(g'(x)>0\),则\(0<x<\dfrac{2 \sqrt{5}}{5}\);令\(g'(x)<0\),则 \(\dfrac{2 \sqrt{5}}{5}<x<1\),
\(\therefore g(x)\)在\(\left(0, \dfrac{2 \sqrt{5}}{5}\right)\)上单调递增,在\(\left(\dfrac{2 \sqrt{5}}{5}, 1\right)\)上单调递减,
\(\therefore g(x)\)有唯一的极大值为\(g\left(\dfrac{2 \sqrt{5}}{5}\right)\),也是最大值.
\(\therefore\)当 \(x=\dfrac{2 \sqrt{5}}{5}\),即\(p=1-\dfrac{2 \sqrt{5}}{5}\)时,\(f(p)\)取得最大值.