独立性检验

前言

数学原理

\(H_0:\)先假设两个变量\(A\)\(B\)是无相关关系的,\(\chi^2\)的观测值\(k_0\)越大,则与之对应的假设事件\(H_0\)成立的概率越小,那么\(H_0\)不成立的概率越大,即两个变量相关的概率越大。

表格说明

  • 独立性检验中的表格的解读:
\(P\)(\(\chi^2\)\(\geq\)\(k_0\)) \(0.500\) \(0.400\) \(0.250\) \(0.150\) \(0.100\) \(0.050\) \(0.025\) \(0.010\) \(0.005\) \(0.001\)
\(\;\;k_0\;\;\) \(0.455\) \(0.708\) \(1.323\) \(2.072\) \(2.706\) \(3.841\) \(5.084\) \(6.635\) \(7.897\) \(10.828\)
  • 使用实例:比如计算得到\(\chi^2=8\),则有\(8>7.897\),而\(7.897\)对应概率值为\(0.005\),故有\(1-0.005=99.5\%\)以上的把握认为“两个变量有关”,但还是有低于\(0.5\%\)的判断出错可能性,并不是百分之百。

其他难点

  • 记准几个核心参数的位置,不能出错;
  • 运算不能出错,参照表格不能使用错误;
  • 当题目中没有给出\(2\times 2\) 列联表而需要制作时,此时解题难度上升,因为需要分析题目中的两个变量具体是什么,每个变量的具体取值是什么,弄清楚这些,才能迅速制作列联表。也就是数据的收集、加工、处理等。

运算技巧

  • 独立性检验的\(\chi^2\)的计算中,先化简,后计算。

案例1,比如\(\chi^2=\cfrac{105\times(10\times30-20\times45)^2}{55\times 50\times30\times75}\)

\(=\cfrac{21\times(300-900)^2}{11\times 50\times30\times75}\)\(=\cfrac{21\times600\times600}{11\times 50\times30\times75}\)

\(=\cfrac{21\times12\times20}{11\times 1\times 1\times75}\)\(=\cfrac{7\times12\times20}{11\times 1\times 1\times25}\)

\(=\cfrac{7\times12\times4}{11\times 1\times 1\times5}\)\(=\cfrac{336}{55}=6.11\)

案例2,比如\(\chi^2=\cfrac{1000\times(360\times180-320\times 140)^2}{500\times 500\times 680\times 320}\)

分子分母约去\(100\),分子的平方项下约去\(10\),则分母位置必须约去\(100\),得到:

\(\chi^2=\cfrac{1000\times(36\times180-32\times 140)^2}{500\times 5\times 680\times 320}\)

分子分母约去\(100\),得到:

\(\chi^2=\cfrac{1000\times(36\times18-32\times 14)^2}{5\times 5\times 680\times 320}\)

分子分母约去\(100\),得到:

\(\chi^2=\cfrac{10\times(36\times18-32\times 14)^2}{5\times 5\times 68\times 32}\)

分子分母约去\(5\),得到:

\(\chi^2=\cfrac{2\times(36\times18-32\times 14)^2}{5\times 68\times 32}\)

分子分母约去\(16\),得到:

\(\chi^2=\cfrac{2\times(18\times 9-16\times 7)^2}{5\times 68\times 2}\)

分子分母约去\(4\),得到:

\(\chi^2=\cfrac{2\times(9\times 9-8\times 7)^2}{5\times 34\times 1}\)

分子分母约去\(2\),得到:

\(\chi^2=\cfrac{(9\times 9-8\times 7)^2}{5\times 17}\)

\(\chi^2=\cfrac{25\times 25}{5\times 17}\)

\(\chi^2=\cfrac{5\times 25}{17}\approx 7.353\)

  • 近似计算的要求和题目中已知数据的精确度保持一致。

典例剖析

“网购”已经成为我们日常生活中的一部分,某地区随机调查了 \(100\) 名男性和 \(100\) 名女性在“双十一”活动中用于网购的消费金额,数据整理如下表,

男性消费金额频数分布表:

消费金额 \(0\sim500\) \(500\sim1000\) \(1000\sim1500\) \(1500\sim2000\) \(2000\sim3000\)
人数 \(15\) \(15\) \(20\) \(30\) \(20\)

(1).试分别计算男性、女性在此活动中的平均消费金额;

解: 由表格知男性平均消费金额为:

\(\bar{x}=0.15\times250+0.15\times750+0.2\times1250+0.3\times1750+0.2\times2500\) \(=1425\)(元);

由频率分布直方图知女性平均消费金额为:

\(\bar{y}=(2.5\times0.3+7.5\times0.2+12.5\times0.2+17.5\times0.15+22.5\times0.1+27.5\times 0.05)\)\(\times100=1100\)(元);

(2).如果分别把男性、女性消费金额与中位数相差不超过 \(200\) 元的消费称作理性消费,试问是否有 \(50\%\) 以上的把握认为理性消费与性别有关?

参考公式:附 \(\chi^2=\cfrac{n\times(ad-bc)^2}{(a+b)(c+d)(a+c)(b+d)};\)

\(P(\chi^2\geqslant k_0)\) \(0.50\) \(0.40\) \(0.25\) \(0.15\) \(0.10\) \(0.05\)
\(k_0\) \(0.455\) \(0.708\) \(1.323\) \(2.072\) \(2.706\) \(3.841\)

解析:由(1)知女性的消费中位数为 \(1000\) 元[利用等分面积线来计算中位数],则理性消费区间为 \([800,1200]\) 元,人数为 \(0.04\)\(\times4\)\(\times\)\(100\)\(=\)\(16\) 个,男性的消费中位数为 \(1500\) 元[利用等分面积线来计算中位数],则理性消费区间理性消费区间为 \([1300,1700]\) 元,人数为 \(0.20\times\cfrac{2}{5}\times 100\)\(+\)\(0.30\times\cfrac{2}{5}\times100\)\(=\)\(20\)个 ,又由于本题目涉及两个变量 “消费特点”和“性别”,其中“消费特点”的值域为理性消费和非理性消费,性别的值域为男和女,故制作填写 \(2\times2\) 列联表如下:

女性 男性 合计
理性消费 \(16\) \(20\) \(36\)
非理性消费 \(84\) \(80\) \(164\)
合计 \(100\) \(100\) \(200\)

\(\chi^2=\cfrac{200\times(16\times80-84\times20)^2}{100\times 100\times36\times164}\approx 0.5420\)

由于 \(0.5420>0.455\),所以有 \(50\%\) 以上的把握认为理性消费与性别有关.

【2017全国卷2文科19题理科18题高考真题】海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg), 其频率分布直方图如下:

(1)记\(A\)表示事件“旧养殖法的箱产量低于50kg”,估计\(A\)的概率;

分析:本题实质是考查用频率估计概率,所以要会根据频率分布直方图计算频率。

由于“旧养殖法的箱产量低于50kg”的频率为\((0.012+0.014+0.024+0.034+0.040)\times 5=0.62\)

故所求概率\(P(A)=0.62\)

同理得到“新养殖法的箱产量低于50kg”的频率为\((0.004+0.020+0.044)\times 5=0.34\)

(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关,参考数据表格如下:

\[\begin{array}{c|lcr} P(\chi^2\ge k_0) & 0.050 &0.010 &0.001 \\ \hline k_0 & 3.841 & 6.635 & 10.828 \end{array}\]

分析:由上问可知,“旧养殖法的箱产量低于50kg”的频数为\(100\times 0.62=62\)

则“旧养殖法的箱产量不低于\(50kg\)”的频数为\(100-62=38\)

“新养殖法的箱产量低于\(50kg\)”的频数为\(100\times 0.34=34\)

则“新养殖法的箱产量不低于\(50kg\)”的频数为\(100-34=66\),由此得到二列联表如下:

箱产量<\(50kg\) 箱产量\(\ge 50kg\) 总计
旧养殖法 \(62(a)\) \(38(b)\) \(100(a+b)\)
新养殖法 \(34(c)\) \(66(d)\) \(100(c+d)\)
总计 \(96(a+c)\) \(104(b+d)\) \(200(a+b+c+d)\)

由上表计算得到:

\(\chi^2=\cfrac{n(ad-bc)^2}{(a+b)(c+d)(a+c)(b+d)}\)

\(=\cfrac{200(62\times 66-38\times 34)^2}{(62+38)(34+66)(62+34)(38+66)}=15.705>6.635\)

故有99%以上的把握认为,二者有关联。

(3)根据箱产量的频率分布直方图,对这两种养殖方法的优劣进行比较。

分析:本题目的难点有:到底从哪些角度进行比较?每一个角度下的数值的计算方法。

数据的极差:旧,\(25-70\);新,\(35-70\),极差反映了数据的取值范围和数据的几种程度,当然误差是有的;

数据的众数:旧,\(47.5\);新,\(52.5\),众数反映了出现次数最多,

数据的平均数:旧,\(47.1\);新,\(52.35\),平均数反映了一组数据的平均水平,

数据的方差(标准差):比较精确的反映了数据的分散和集中程度,将这种程度数量化了。

本题目从运算量和问题出发,可以从数据的范围和数据的中位数(或均值)两个角度作答。

“旧养殖法”的数据分布在\(25-70\)之间,“新养殖法”的数据分布在\(35-70\)之间,

故从数据范围来看,新养殖法的数据更集中,优于旧养殖法;

“旧养殖法”的平均数(中位数)分布在\(40-45\)之间,“新养殖法”的平均数(中位数)分布在\(50-55\)之间,

从平均数(中位数)角度来看,新养殖法也优于旧养殖法。

posted @ 2020-04-19 11:59  静雅斋数学  阅读(1952)  评论(0编辑  收藏  举报
您已经努力一段时间了
活动活动喝杯咖啡吧
                  ----静雅斋