独立性检验
前言
数学原理
\(H_0:\)先假设两个变量\(A\),\(B\)是无相关关系的,\(\chi^2\)的观测值\(k_0\)越大,则与之对应的假设事件\(H_0\)成立的概率越小,那么\(H_0\)不成立的概率越大,即两个变量相关的概率越大。
表格说明
- 独立性检验中的表格的解读:
\(P\)(\(\chi^2\)\(\geq\)\(k_0\)) | \(0.500\) | \(0.400\) | \(0.250\) | \(0.150\) | \(0.100\) | \(0.050\) | \(0.025\) | \(0.010\) | \(0.005\) | \(0.001\) |
---|---|---|---|---|---|---|---|---|---|---|
\(\;\;k_0\;\;\) | \(0.455\) | \(0.708\) | \(1.323\) | \(2.072\) | \(2.706\) | \(3.841\) | \(5.084\) | \(6.635\) | \(7.897\) | \(10.828\) |
- 使用实例:比如计算得到\(\chi^2=8\),则有\(8>7.897\),而\(7.897\)对应概率值为\(0.005\),故有\(1-0.005=99.5\%\)以上的把握认为“两个变量有关”,但还是有低于\(0.5\%\)的判断出错可能性,并不是百分之百。
其他难点
- 记准几个核心参数的位置,不能出错;
- 运算不能出错,参照表格不能使用错误;
- 当题目中没有给出\(2\times 2\) 列联表而需要制作时,此时解题难度上升,因为需要分析题目中的两个变量具体是什么,每个变量的具体取值是什么,弄清楚这些,才能迅速制作列联表。也就是数据的收集、加工、处理等。
运算技巧
- 独立性检验的\(\chi^2\)的计算中,先化简,后计算。
案例1,比如\(\chi^2=\cfrac{105\times(10\times30-20\times45)^2}{55\times 50\times30\times75}\)
\(=\cfrac{21\times(300-900)^2}{11\times 50\times30\times75}\)\(=\cfrac{21\times600\times600}{11\times 50\times30\times75}\)
\(=\cfrac{21\times12\times20}{11\times 1\times 1\times75}\)\(=\cfrac{7\times12\times20}{11\times 1\times 1\times25}\)
\(=\cfrac{7\times12\times4}{11\times 1\times 1\times5}\)\(=\cfrac{336}{55}=6.11\)
案例2,比如\(\chi^2=\cfrac{1000\times(360\times180-320\times 140)^2}{500\times 500\times 680\times 320}\)
分子分母约去\(100\),分子的平方项下约去\(10\),则分母位置必须约去\(100\),得到:
\(\chi^2=\cfrac{1000\times(36\times180-32\times 140)^2}{500\times 5\times 680\times 320}\)
分子分母约去\(100\),得到:
\(\chi^2=\cfrac{1000\times(36\times18-32\times 14)^2}{5\times 5\times 680\times 320}\)
分子分母约去\(100\),得到:
\(\chi^2=\cfrac{10\times(36\times18-32\times 14)^2}{5\times 5\times 68\times 32}\)
分子分母约去\(5\),得到:
\(\chi^2=\cfrac{2\times(36\times18-32\times 14)^2}{5\times 68\times 32}\)
分子分母约去\(16\),得到:
\(\chi^2=\cfrac{2\times(18\times 9-16\times 7)^2}{5\times 68\times 2}\)
分子分母约去\(4\),得到:
\(\chi^2=\cfrac{2\times(9\times 9-8\times 7)^2}{5\times 34\times 1}\)
分子分母约去\(2\),得到:
\(\chi^2=\cfrac{(9\times 9-8\times 7)^2}{5\times 17}\)
\(\chi^2=\cfrac{25\times 25}{5\times 17}\)
\(\chi^2=\cfrac{5\times 25}{17}\approx 7.353\)
- 近似计算的要求和题目中已知数据的精确度保持一致。
典例剖析
男性消费金额频数分布表:
消费金额 | \(0\sim500\) | \(500\sim1000\) | \(1000\sim1500\) | \(1500\sim2000\) | \(2000\sim3000\) |
---|---|---|---|---|---|
人数 | \(15\) | \(15\) | \(20\) | \(30\) | \(20\) |
(1).试分别计算男性、女性在此活动中的平均消费金额;
解: 由表格知男性平均消费金额为:
\(\bar{x}=0.15\times250+0.15\times750+0.2\times1250+0.3\times1750+0.2\times2500\) \(=1425\)(元);
由频率分布直方图知女性平均消费金额为:
\(\bar{y}=(2.5\times0.3+7.5\times0.2+12.5\times0.2+17.5\times0.15+22.5\times0.1+27.5\times 0.05)\)\(\times100=1100\)(元);
(2).如果分别把男性、女性消费金额与中位数相差不超过 \(200\) 元的消费称作理性消费,试问是否有 \(50\%\) 以上的把握认为理性消费与性别有关?
参考公式:附 \(\chi^2=\cfrac{n\times(ad-bc)^2}{(a+b)(c+d)(a+c)(b+d)};\)
\(P(\chi^2\geqslant k_0)\) | \(0.50\) | \(0.40\) | \(0.25\) | \(0.15\) | \(0.10\) | \(0.05\) |
---|---|---|---|---|---|---|
\(k_0\) | \(0.455\) | \(0.708\) | \(1.323\) | \(2.072\) | \(2.706\) | \(3.841\) |
解析:由(1)知女性的消费中位数为 \(1000\) 元[利用等分面积线来计算中位数],则理性消费区间为 \([800,1200]\) 元,人数为 \(0.04\)\(\times4\)\(\times\)\(100\)\(=\)\(16\) 个,男性的消费中位数为 \(1500\) 元[利用等分面积线来计算中位数],则理性消费区间理性消费区间为 \([1300,1700]\) 元,人数为 \(0.20\times\cfrac{2}{5}\times 100\)\(+\)\(0.30\times\cfrac{2}{5}\times100\)\(=\)\(20\)个 ,又由于本题目涉及两个变量 “消费特点”和“性别”,其中“消费特点”的值域为理性消费和非理性消费,性别的值域为男和女,故制作填写 \(2\times2\) 列联表如下:
女性 | 男性 | 合计 | |
---|---|---|---|
理性消费 | \(16\) | \(20\) | \(36\) |
非理性消费 | \(84\) | \(80\) | \(164\) |
合计 | \(100\) | \(100\) | \(200\) |
\(\chi^2=\cfrac{200\times(16\times80-84\times20)^2}{100\times 100\times36\times164}\approx 0.5420\)
由于 \(0.5420>0.455\),所以有 \(50\%\) 以上的把握认为理性消费与性别有关.
(1)记\(A\)表示事件“旧养殖法的箱产量低于50kg”,估计\(A\)的概率;
分析:本题实质是考查用频率估计概率,所以要会根据频率分布直方图计算频率。
由于“旧养殖法的箱产量低于50kg”的频率为\((0.012+0.014+0.024+0.034+0.040)\times 5=0.62\),
故所求概率\(P(A)=0.62\)。
同理得到“新养殖法的箱产量低于50kg”的频率为\((0.004+0.020+0.044)\times 5=0.34\)
(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关,参考数据表格如下:
分析:由上问可知,“旧养殖法的箱产量低于50kg”的频数为\(100\times 0.62=62\),
则“旧养殖法的箱产量不低于\(50kg\)”的频数为\(100-62=38\),
“新养殖法的箱产量低于\(50kg\)”的频数为\(100\times 0.34=34\),
则“新养殖法的箱产量不低于\(50kg\)”的频数为\(100-34=66\),由此得到二列联表如下:
箱产量<\(50kg\) | 箱产量\(\ge 50kg\) | 总计 | |
---|---|---|---|
旧养殖法 | \(62(a)\) | \(38(b)\) | \(100(a+b)\) |
新养殖法 | \(34(c)\) | \(66(d)\) | \(100(c+d)\) |
总计 | \(96(a+c)\) | \(104(b+d)\) | \(200(a+b+c+d)\) |
由上表计算得到:
\(\chi^2=\cfrac{n(ad-bc)^2}{(a+b)(c+d)(a+c)(b+d)}\)
\(=\cfrac{200(62\times 66-38\times 34)^2}{(62+38)(34+66)(62+34)(38+66)}=15.705>6.635\)
故有99%以上的把握认为,二者有关联。
(3)根据箱产量的频率分布直方图,对这两种养殖方法的优劣进行比较。
分析:本题目的难点有:到底从哪些角度进行比较?每一个角度下的数值的计算方法。
数据的极差:旧,\(25-70\);新,\(35-70\),极差反映了数据的取值范围和数据的几种程度,当然误差是有的;
数据的众数:旧,\(47.5\);新,\(52.5\),众数反映了出现次数最多,
数据的平均数:旧,\(47.1\);新,\(52.35\),平均数反映了一组数据的平均水平,
数据的方差(标准差):比较精确的反映了数据的分散和集中程度,将这种程度数量化了。
本题目从运算量和问题出发,可以从数据的范围和数据的中位数(或均值)两个角度作答。
“旧养殖法”的数据分布在\(25-70\)之间,“新养殖法”的数据分布在\(35-70\)之间,
故从数据范围来看,新养殖法的数据更集中,优于旧养殖法;
“旧养殖法”的平均数(中位数)分布在\(40-45\)之间,“新养殖法”的平均数(中位数)分布在\(50-55\)之间,
从平均数(中位数)角度来看,新养殖法也优于旧养殖法。