概率与统计备忘
# 概率与统计备忘
概率与统计是非常基础的学科,说来惭愧,毕业后因工作原因很少接触这方面的内容,不少概念都已遗忘,本文是对近一段时间学习的总结(持续更新),当作备忘以便于后续的学习
本文内容源自以下书籍
这里引用知乎上一篇文章中的故事来引入概率与统计在生活中的应用
某天小王同学突然被告知他是某个远方的亲戚的唯一继承人,这个亲戚给了他两个选择,要么完成某个挑战获得 300 亿的遗产,要么轻松拿着 1000 万回家。挑战很难,完成挑战的概率是1/2000,那么如果你是小王会怎么选择呢?
- 对于比较“胆小”的人来说,其选择直接拿 1000 万的概率比较大
- 对于一个刚学会怎么算概率的人来说,其可能选择挑战,因为他认为挑战获得钱的期望比较大
- \(30000000000\times 1/2000 + 0 \times 1999/2000 = 15000000\),1500 万的期望大于 1000 万
- 对于一个概率学的比初学者好的人来说,有期望还不够,他还要算下标准差(1500 万),这说明他只有不到 70% 的概率获得挑战的期望值,这样算算,好像还不如直接拿 1000 万
- 高级学者及以上人员的选择......
经典问题
蒙提霍尔问题
蒙提霍尔问题(也称为三门问题)是非常经典的概率问题。此类问题的核心在于:获得新的信息后会造成概率的变化,这个概率变化发生在哪一边?很多文献给出了下面的答案
选择者自身的概率不会发生变化,非选择者那边的概率会发生变化
用一个例子说明上面的想法。假设海量彩票中只有一张会中奖,你从中抽取其中一张,然后其他人将剩下的彩票撕掉只留下一张并告诉你你手中的彩票和他手中的彩票有一张必然中奖。再给你一次选择的机会,你会选择这两张中的哪张?
从哲学上讲,你并没有获得与自身相关的信息,故概率不变
一件事成立与否的概率与整个事件的过程是息息相关的,在事件之中你未做任何操作,那么概率只与事件初始状态相关。随着信息越来越多,也只是在预示你当初选择的结果,也许你会发现事件成立的概率越来越大,但另一次也许你会发现成立的概率越来越小。在事件发生的过程中做出改变,才会影响整个事件的概率
常见概念
-
描述统计学 & 推论统计学
- 描述统计学:从母群体中抽象出几个具有代表性的数值来描述母群体
- 推论统计:从无限母群体得到的几个数据,对母群体总体进行推测
-
频率分布表 & 直方图
-
平均值(\(\bar x \approx E(x)\),
x-bar
)- 大部分情况下平均值是所有数据的中间值,所有数据在平均值上下波动
- 算术平均值,\(\frac {x+y} {2}\)
- 几何平均数,\(\sqrt {xy}\)
- 常用于求解“成长率”的平均值。例如一个企业连续两年的增长率分别为 50% 和 4%,则这两年的平均增长率为:\(\sqrt {1.5 \times 0.96}=1.2\),即连续两年的平均增长率为 20%
- 均方根值,\(\sqrt \frac {x^2+y^2} {2}\)。例如方差求解中会有类似形式
- 调和平均数,\(\frac {2} {1/x + 1/y}\)
- 假设往返两地间去程和返程时速分别为 \(x, y\),则可以使用调和平均数求整个旅程的平均速度
-
无偏估计,在多次重复下,平均数接近所估计的参数真值,例如:\(E[\bar{X}]=\mu, \quad E\left[S^{2}\right]=\sigma^{2}\)
-
方差 & 标准差
- 总体(母群体)方差一般记作 \(\sigma ^2\)
- 样本方差(variance):\(s^{2}=\frac{\left(x_{1}-\bar{X}\right)^{2}+\left(x_{2}-\bar{X}\right)^{2}+\left(x_{3}-\bar{X}\right)^{2}+\ldots+\left(x_{n}-\bar{X}\right)^{2}}{n-1}\),\(V = E((x-E(x))^2)\),无偏估计要除以 \(n-1\),后面有说明
- 标准差(standard deviation, S.D. ):\(\sqrt {S^2}\),离散程度的度量
- 1 个 S.D. 和 2 个 S.D. ,正态分布下一般认为偏差与方差之比为 1 左右的数据是正常的,大于 2 的数据是特殊数据
- 按正态分布,距离均值 1 个 S.D. 距离的数据大概占总数据量的 70%,距离均值 2 个 S.D. 距离的数据大概占总数据量的 95%
-
正态分布
- 常见的正态分布:身高、寿命、成绩、抛硬币正面朝上的个数
- 正态分布\[f(x)=\frac{1}{\sqrt{2 \pi} \sigma} \exp \left(-\frac{(x-\mu)^{2}}{2 \sigma^{2}}\right) \]
- 标准正态分布的均值为 0,标准差为 1,[-1, 1] 占总面积的 68.26%,[-2, 2] 占总面积的 95.44%,[-3, 3] 占总面积的 99.7%,这条规则适用所有正态分布。一般正态分布的性质是标准正态分布的 \(\delta\) 倍加 \(\mu\) ,正态分布的标准化过程:\(\frac {x-\mu}{\sigma}\)
- 正态分布 95% 置信区间(±1.96)
- \(-1.96 \leqslant \frac{x-\mu}{\sigma} \leqslant+1.96\),与均值 ±1.96 个标准差的距离区间,逆推可得真实数据的分布
- 显著性检查常用区间
-
大数定理
\[P\left(\left|\frac{1}{n} \sum_{i=1}^{n} a_{i}-\mu\right|<\varepsilon\right)=1, n\rightarrow \infty \]- 随着样本数量 \(n\) 的增加,样本平均数将接近整体平均数
-
中心极限定理:\(n\) 个独立同分布统计量\((\mu, \sigma )\)(不一定是正态分布)和的平均值 \(\bar X\),在 \(n\) 足够大时符合正态分布(\(\frac{\bar{X}-\mu}{\sigma / \sqrt{n}}\))
- 无论随机变量呈现出什么分布,只要你抽取次数无限大,抽取样本的均值就接近于正态分布
- 中心极限定理,没有要求相加的随机变量分布相同,只要相加的随机变量独立且方差有限,它们的无限和就是正态分布
- 母群体正态分布,样本均值亦满足正态分布(\(\frac{\bar{X}-\mu}{\sigma / \sqrt{n}}\)),反过来不成立
- 财富分布不满足正态分布是因为影响财富的因素相互之间不独立,钱是在人与人之间流通的,是相关的
-
极大似然原理
- 已经发生的事情,其之所以发生,是因为他发生的概率大
-
卡方分布
- \(V=x_1^2 + x_2^2 + x_3^2 +...+x_n^2\),其中 \(n\) 为卡方的自由度,绘制卡方曲线时,不同自由度有不同的曲线,横轴为 \(V\) 的取值,纵轴为 \(V\) 出现的概率
- 卡方分布用于描述正态母群体样本方差的分布
- 性质
- 随着自由度的增加,卡方分布趋近于正态分布,曲线向右侧变矮
- 不同的自由度决定不同的卡方分布,自由度越小,分布越偏斜(左偏)
- \(W=\frac{\left(x_{1}-\bar{x}\right)^{2}}{\sigma^{2}}+\frac{\left(x_{2}-\bar{x}\right)^{2}}{\sigma^{2}}+\cdots+\frac{\left(x_{n}-\bar{x}\right)^{2}}{\sigma^{2}}\) ,呈自由度为 \(n-1\) 的卡方分布,用于使用正态母群体样本均值估算样本方差分布
-
\(T\) 分布
\[T=\frac{(\bar x-\mu) \sqrt{n-1}}{s} \]-
在已知母群体方差时可以使用样本均值和中心极限定理估计正态母群体均值;当样本数足够大时可以使用样本方差和中心极限定理估计正态母群体均值;当样本数比较少时可以使用 \(T\) 分布估计正态母群体样本均值
-
\(T\) 分布的 95% 置信区间
\[-\alpha \leqslant \frac{(\bar x-\mu) \sqrt{n-1}}{s} \leqslant+\alpha\quad (\alpha=2.571) \] -
\(T\) 分布的密度函数为
\[f_{Z}(x)=\frac{\operatorname{Gam}\left(\frac{n+1}{2}\right)}{\sqrt{n \pi} \operatorname{Gam}\left(\frac{n}{2}\right)}\left(1+\frac{x^{2}}{n}\right)^{-\frac{n+1}{2}} \]
-
-
\(\beta\) 分布,计算均值的工具
- \(y=cx^{\alpha-1}(1-x)^{\beta-1}, \ (\alpha \geq 1, \beta \geq 1)\),c 存在的意义在于使得整个方程在 [0,1] 之间的积分值为 1
- \(y=1 \ (\alpha=1, \beta = 1)\)
- \(y=x \ (\alpha=2, \beta=1)\)
- \(y=6x(1-x) \ (\alpha=\beta=1)\)
- ...
- \(\beta\) 分布的期望:\(\frac {\alpha} {\alpha + \beta}\)
- \(y=cx^{\alpha-1}(1-x)^{\beta-1}, \ (\alpha \geq 1, \beta \geq 1)\),c 存在的意义在于使得整个方程在 [0,1] 之间的积分值为 1
-
其他常见分布
- 二项分布
- 二项分布样本均值满足参数为 \(\mu=n, \sigma = \sqrt n/2\) 的正态分布
- 二项分布
-
序贯理性
- 在博弈树的每一个信息集上,总是使用最佳策略。在概率与统计上使用序贯理性的前提是各事件相互独立
-
共轭先验分布
- 如果先验分布和后验分布相同,则便于计算
- 如果先验分布和后验分布不同,从哲学的角度来看,很奇怪
假设检验
问题:抛多少次硬币可以使得刚好出现 10 次正面的概率最大?
使用假设检验的方式从 \(N=16,N=36\) 中选择一个合适的 \(N\) 值
- \(N=16\) 时
- 求 95% 置信区间,\([4.08, 11.92]\),这说明 \(N=16\) 时出现 10 次正面的概率不在那极少出现的 5% 中
- \(N=36\) 时
- 求 95% 置信区间,\([12.12,23.88]\),很明显,出现 10 次正面的概率在那极少出现的 5% 中
综上,选择 16 比选择 36 要好,\(N=36\) 是“舍弃假设”
上面的检验过程有个隐含的条件:极大似然原理,即一件事情发生了,我们就认为这件事情是显著性事件,而显著性事件一般认为其位于 95% 置信区间内,我们需要构建一个不等式,只要满足事件显著性,结果就是可以接受的。结合这个思想,就有了下面的区间估计方法
从其他角度解决当前问题,已知当前问题符合正态分布,假设这个值为 \(N\) ,则可得 \(\mu=\frac N 2; \sigma = \frac {\sqrt N} {2}\),那么问题转化为求解下面函数关于 N 的极大值:
把上式看作变量 \(N\) 的函数,使用 \(Mathematica\) 求 \(N > 0\) 时的最大值,解为 \(N = 20\)
区间估计
同样是上面抛硬币的问题,这次我们求解其 95% 置信区间,求解下面不等式
得 \(N \in [12.9474, 30.8942]\),即投掷 \(N\) 枚硬币, \(N\) 的 95% 置信区间约为 \([13, 30]\) (注:12和31不在置信区间内)
这里 95% 置信区间的概念意味着,当我们重复进行多次实验且每次抛掷硬币的次数在 [13, 30] 之间时,硬币出现 10 次正面的概率在每次实验的 95% 置信区间内
估算均值:同样可以使用上面公式在已知标准差的前提下估算均值的 95% 置信区间
例如,已知一个不太准确的温度计,其标准差为 5°,如果某次测量结果为 20° ,求实际温度的 95% 置信区间。解下面不等式可得答案:\([10.2, 29.8]\)
这说明 \(\mu\) 取值位于 10.2~29.8 时测量结果为 20° 的结果都位于 95% 置信区间内
正态母群体的样本均值分布
母群体为正态分布 \((\mu, \sigma)\) 时,多次抽样,样本均值亦为正态分布:\((\mu, \frac {\sigma} {\sqrt{n}})\),其中 \(n\) 为样本数量,由此可得若干特性:
- 随着抽样个数的增加,样本均值分布会越来越“尖锐”,获得与真实均值相近值的概率越来越大
- 样本均值的 95% 置信区间:\([\left(\mu-1.96 \frac{\sigma}{\sqrt{n}}\right), \left(\mu+1.96 \frac{\sigma}{\sqrt{n}}\right)]\),随着抽样个数的增加,方差愈来愈小
- 中心极限定理的一个体现
样本方差的无偏估计
直观求解方法并不能获得母群体标准差(\(n \rightarrow +\infty\)),如下所示,直观样本方差的无偏估计和真实的母群体方差相差一个 \(\sigma^2/n\),在 \(n\) 值非常大的时候这个偏差可以忽略
故真实的方差是除以 \(n-1\) 的
贝叶斯定理
贝叶斯推理可以总结为:通过观察行动(新信息),将先验概率通过贝叶斯更新,转换为后验概率
条件概率是贝叶斯的基础,条件概率是“局部概率”,\(P(B|A)\) 表示在已知 A 的前提下 B 发生的概率,对应事件的全局概率为:\(P(AB)=P(B|A)P(A)\),这类公式可以使用面积法辅助记忆
贝叶斯公式
这里从两个角度解释条件概率来说明贝叶斯的作用,已知事件 \(A\) 和 \(B\),\(B\) 是 \(A\) 的子事件,那么 \(P(B|A)\) 很好理解,就是在已知 \(A\) 发生的前提下 \(B\) 发生的概率,且 \(P(B|A) = P(AB)/P(A)\);那 \(P(A|B)\) 又该如何求解呢?此时就需要贝叶斯公式出场了
常见概念
- 先验概率 & 后验概率
- 理由不充分原理,暂且将未知概率设为相同
- 全概率公式
假设检验与贝叶斯
假设检验是传统统计学(内曼-皮尔逊)中的方法,假设检验依赖的思想是显著性(极大似然原理)。假设事件 A 是正确的,那就以 A 为基础构造一个极少发生的事件(5%),随后进行试验,如果出现了极少发生的事件则说明 A 是不成立的
贝叶斯不像假设检验那样,明确表明事件 A 成立或者不成立,贝叶斯给出事件 A 成立的概率
假设检验常常将显著性概率设置为 95%,在事件成立概率小于 95%,或者更小时是无法使用假设检验求解问题的,此时就需要贝叶斯。从推理的过程来看,假设检验的风险存在于结论之外(使用额外的概率描述结果失败风险),贝叶斯的风险存在于结论之内(可信度或者说概率就是结果)。贝叶斯可以不用考虑显著水平,是因为设定了先验概率。贝叶斯推理也以极大似然原理为基础
使用面积求贝叶斯
罹患癌症的概率
通过历史数据可知某种癌症在人群中的发病率为 0.1%
(先验概率),又已知对这种癌症进行检测时癌症患者阳性的概率为 0.95
(漏检的概率为0.05
),健康人误检结果为阳性的结果为0.02
,现在问:如果一个人被检测为阳性,那其患癌的概率是多少?
使用面积法求解上面的问题,可知答案为:4.539%。具体解法可参看《统计学关我什么事》第二章,下面用公式法求解
使用数学符号表示上述问题并求解:
- 事件 \(A\) 表示患癌,则 \(P(A)=0.001\);使用 \(A'\) 表示未患癌,则 \(P(A')=0.999\)
- 事件 \(pos\) 表示检查结果为阳性,则 \(P(pos|A) = 0.95, P(pos|A')=0.02\)
- 求 \(P(A|pos)\),直接使用贝叶斯公式
生男生女
一对夫妇第一胎生女孩,第二胎还生女孩的概率是多大?这里需要明确一点,从统计上看,真实的男女出生率之比大概为51:49
使用图形解法请参考《统计学关我什么事》第四章,下面使用常规方法求解
使用数学符号表示上述问题并假设
-
事件 \(A/B/C\) 表示生女孩的概率分别为 0.4/0.5/0.6,则在未知其他信息的情况下设 \(P(A)=1/3;P(B)=1/3;P(C)=1/3\)
-
事件 \(D/E\) 分别表示生男孩和女孩,则 \(P(G|A)=0.4;P(D|A)=0.6\)
-
求生女孩的期望
-
已知第一胎为女孩,使用贝叶斯公式求解这对夫妇对于事件 \(A/B/C\) 的后验概率,
\[P(A|G)= \frac {P(A)P(G|A)}{P(A)P(G|A)+P(B)P(G|B)+P(C)P(G|C)} \approx 0.27 \] -
同理可得 \(P(B|G)=0.33;P(C|G)=0.40\)
-
求期望:\(0.27 \times 0.4+0.33 \times 0.5+0.40 \times 0.6=0.513\)
-
连续函数下的生男生女
假设一对夫妇生女孩的概率密度函数为:\(y=1 \ (x \in [0, 1])\),已知第一胎生女孩,那么第二胎生女孩的期望是多少?
贝叶斯与极大似然原理息息相关,在已知第一胎为女孩的前提下,利用极大似然原理,可得生男生女的后验概率为 \(y=2x \ (x \in [0,1])\),使用 \(\beta\) 分布求解期望:\(\frac {2} {2+1}=\frac 2 3\)
设先验概率为 \(\beta\) 分布的生男生女
设一对夫妇生女孩的先验概率是 \(\alpha = 2, \beta = 2\) 的贝塔分布,若其生的是女孩,求后验概率
已知概率密度为贝塔分布,为了使用贝叶斯(极大似然)求后验概率,这里需要构建一个函数,用于求解全局情况下这对夫妇生女孩概率为 \(x\) 且生女孩的概率,即\(P(生女孩的概率为 x\ \&\ 在生女孩概率为 x 时生女孩的概率)\),所得结果如下
在已知 \(\alpha, \beta\) 前提下,上式的期望值为 \(\frac {2+1} {2+1+2} = \frac 3 5\)。先验分布下这对服务生女孩的期望为 0.5,在已知当前生的时女孩时,其后验概率的期望是 3/5
A 壶 or B 壶
有两个外观完全一致的壶,已知 A 壶中有 1 个黑球 9 个白球;B 壶中有 2 个白球和 8 个黑球,如果随机从一个壶中取到一个黑球,问这个壶是 B 壶的概率
这个问题还是可以使用面积法求解,下面使用常规法求解
- 事件 \(A/B\) 分别表示壶 A 和 壶 B ,在未知任何信息前:\(P(A)=0.5;P(B)=0.5\)
贝叶斯与垃圾邮件检测
从历史数据中可知垃圾邮件的一些特点,比如垃圾邮件中包含 URL 的概率比正常邮件要大、垃圾邮件中包含某些词汇,如“幽会”的概率要比正常邮件大,等等。通过这些特征并结合贝叶斯概率可以计算邮件是垃圾邮件的概率
这里使用两个特征举例说明贝叶斯过滤邮件的过程
假设已知先验概率:垃圾邮件包含 URL 的概率为 0.6,非垃圾邮件包含 URL 的概率为 0.2;垃圾邮件包含“幽会”的概率为 0.4,非垃圾邮件包含“幽会”的概率为 0.05 ,现已知一封邮件中包含了 URL 和 “幽会”,求这封邮件是垃圾邮件的概率
使用下面的方式描述上面的问题:
- 事件 E,表示普通邮件
- 事件 G,表示垃圾邮件
- 事件 A,表示邮件中有 URL
- 事件 B,表示邮件中有单词 “幽会”
则已知:\(P(A|E)=0.2; P(A|G)=0.6; P(B|E)=0.05; P(B|G)=0.4\) ,求 \(P(G|AB)\)
在未知任何信息的前提下,设先验概率 \(P(E)=P(G)=0.5\),直接使用贝叶斯公式求解:
也可以使用面积方式求解本题,但当变量比较多时直接使用贝叶斯和面积法会比较繁琐,所以当变量之间相互独立时可以利用序贯理性简化问题的求解
下面使用序贯理性求解问题,先求 \(P(G|A)\)
由已知信息更新先验概率:\(P(E)=0.25; P(G)=0.75\),再求 \(P(G|B)\)
可以发现上面两种方式求解所得结果是相同的,\(P(G|AB)=0.96\)
通过上面的分析可知贝叶斯有学习能力,不断的通过信息调整后验概率以不断的趋近真实结果。类似于上面 AB 壶等问题,进行多次试验不断的更新后验概率,可以无限接近真实结果
重读 19 章 和 21 章
14 讲