贝叶斯公式经典例题

先看原题:

某地区居民的肝癌发病率为0.0004 ,现用甲胎蛋白法进行普查。医学研究表明,化验结是有错检的可能的。已知患有肝癌的人其化验结果99%呈阳性, 而没患肝癌的人其化验结果99.9% 呈阴性。现某人的检查结果呈阳性,问他真的患有肝癌的概率是多少?

先说答案，一个人化验结果呈阳性，则他患有肝癌的概率是28.4%。

乍一看，觉得这个概率真的好小，看题设里说的，患有肝癌的人，99%的概率是化验结果呈阳性（1%的误判是技术等其他原因导致的）。那为什么反过来，一个人化验结果呈阳性，则他患有肝癌的概率概率就变成了28.4%，这似乎有点违背常识。

解题

我们先把题设化成图，便于取数计算。

解：

设A={该患者是肝癌患者}，B={该患者检验呈阳性}

求\(P(A|B)\)

则

\[P(A) = 0.0004 \\ P(\overline{A})=0.9996 \]

由贝叶斯公式可知:

\[P(A|B) ={P(AB)\over P(B)}= {P(A)P(B|A)\over P(A)P(B|A)+P(\overline{A})P(B|\overline{A}) } \]

这里分子的展开使用了 乘法公式，分母的展开使用了 全概率公式。

我们依次求每一项：

\(P(B|A)\)代表是肝癌患者的前提下，检测呈阳性的概率。我们已经知道了是 0.99

\(P(B|\overline{A})\)代表不是肝癌患者的前提下，检测呈阳性的概率。我们已经知道了是 0.001

即：

\[\begin{equation} P(B|A) = 0.99 \\ P(B|\overline{A}) = 0.001 \end{equation} \]

将公式(1)(3)代入(2)可得\(P(A|B)=0.284\)，即 一个人在第一次化验结果呈阳性的前提下，则他患有肝癌的概率是28.4%

分析

其实凭直觉，我们也应该能猜出，这与肝癌的发病率有关，因为在样本空间（所有人）中，他的发病率只有0.0004。

对此，如果我们把样本空间换成首次检验结果呈阳性的个体，也就是理解成，对首次检查呈阳性的个体进行复查。再去计算

如果复查结果还是阳性，那么此时患肝癌的概率的值。

由于首次检验结果呈阳性的患者，发病率是 0.284（上面已经计算出来了），我们再去使用一次贝叶斯公式(2)，

此时的参数是：

\[\begin{equation} P(A) = 0.284 \\ P(\overline{A})=0.716 \\ P(B|A) = 0.99 \\ P(B|\overline{A}) = 0.001 \end{equation} \]

代入(2)，可得P = 0.997，可见若第二次化验结果还是阳性，此时是肝癌患者的概率变成了99.7%，这也就是现实生活中，要复查的原因了。

作图

在目前技术水平不变的情况下，化验结果的概率，我们假设是一个定值。

那么对于公式

\[P(A|B) ={P(AB)\over P(B)}= {P(A)P(B|A)\over P(A)P(B|A)+P(\overline{A})P(B|\overline{A}) } \tag 2 \]

我们画出求\(P(A|B)\)关于\(P(A)\)的函数，即检验结果是阳性的前提下，该患者患肝癌的概率与人群肝癌发病率的关系。

设人群肝癌发病率为x，检验结果是阳性的前提下，该患者患肝癌的概率为y。

可得：

\[y = {0.99x \over 0.99x + 0.001(1-x)} \]

作图：

QQ图片20210714223805

假设当疾病发病率为4%时，若检测为阳性，则患肝癌的概率是97.63%。

代码：

# coding=gbk
import numpy as np
import matplotlib.pyplot as plt
from pylab import mpl
mpl.rcParams['font.sans-serif'] = ['FangSong'] # 指定默认字体
mpl.rcParams['axes.unicode_minus'] = False # 解决保存图像是负号'-'显示为方块的问题


def morbidity(x):
    y = x*0.99 / (x*0.99 + (1-x)*0.001)

    return y


if __name__ == '__main__':
    x = np.arange(0, 1, 0.01)
    y = morbidity(x)

    # 开始作图
    fig = plt.figure(figsize=(20, 6))  # 设置画布大小
    plt.grid(linestyle="-.", axis='y', alpha=0.4)
    plt.xlabel("人群发病率", fontsize=15)
    plt.ylabel("患肝癌概率", fontsize=15)
    plt.plot(x, y)
    plt.show()

总结

进一步降低错检率是提高检验精度的关键。但在实际中由于技术和操作等种种原因,降低错检率是很困难的。仔细分析一下会发现检验精度低的主要原因是肝癌发病率很低。所以在实际中,常采用复查的方法来减少错误。因为此时被怀疑的对象群体中,肝癌的发病率已大大提高了。

概率有时候与我们的经验不太一样，这也是其魅力之一。

posted @ 2021-07-14 22:54 CuriosityWang 阅读(15300) 评论(0) 收藏举报

刷新页面返回顶部

CuriosityWang

贝叶斯公式经典例题

解题

分析

作图

总结

公告