概率 贝叶斯公式 先验概率 后验概率
先验概率,后验概率,似然概率,条件概率,贝叶斯,最大似然
总是搞混,这里总结一下常规的叫法:
先验概率:
事件发生前的预判概率。可以是基于历史数据的统计,可以由背景常识得出,也可以是人的主观观点给出。一般都是单独事件概率,如P(x),P(y)。
后验概率:
事件发生后求的反向条件概率;或者说,基于先验概率求得的反向条件概率。概率形式与条件概率相同。
条件概率:
一个事件发生后另一个事件发生的概率。一般的形式为P(x|y)表示y发生的条件下x发生的概率。P(A|B) 事件B已经发生的情况下,事件A发生的条件概率 =P(AB)/P(B)
后验概率就是一种条件概率,但是与其它条件概率的不同之处在于,它限定了目标事件为隐变量取值,而其中的条件为观测结果。
一般的条件概率,条件和事件都可以是任意的。
贝叶斯公式就是由先验概率求后验概率的公式
举例区分普通条件概率与后验概率的区别:
1)那么如果我们出门之前我们听到新闻说今天路上出了个交通事故,那么我们想算一下堵车的概率,这个就叫做条件概率 。也就是P(堵车|交通事故)。这是有因求果。
2)如果我们已经出了门,然后遇到了堵车,那么我们想算一下堵车时由交通事故引起的概率有多大,那这个就叫做后验概率 (其实也是条件概率,但是通常习惯这么说) 。也就是P(交通事故|堵车)。这是有果求因。
贝叶斯公式:
P(A|B)=P(A)P(B|A)/P(B)
P(A) A为真的概率,先验概率,是贝叶斯主义者引以为优势的“主观偏见”
P(B) B为真的概率,也称边缘概率或配分函数,是难计算的一项
P(B|A) A为真时B的概率,也称为似然度
在生信的consensus calling and snp detection 步骤如SOAPsnp ,则
Ti 即某位点locus的genotype 概率
D 测序reads观测到的allele type
S genotypes 的数量, 对于单倍型 haploid genotype 有四种{A,C,G,T} ;对于diploid genome 有10种{AA,CC,GG,TT,AC,AG,AT,CG,CT,GT}
在每个genomic location, 基因型 Ti 的prior probability P(Ti) 依据参考序列的genotype和SNP rate(在测序个体和参考基因组间的estimated SNP rate)设置。
如基因型Ti的 P(D|Ti)由测序reads的observed allele types 统计。 定义一个haploid genotype(H)对应观测的allele dk的likelihood为P(dk|H)。假定一个基因组的两条染色体的集合是独立的,一个二倍体基因组某位点的likelihood P(dk|T) 可以统计为
,那么,某位点n个观测到的allels,D={d1, d2, . . ., dn}, P(D|T)为
因此,后验概率posterior probability可以由贝叶斯公式所得,选择后验概率最高的基因型Ti 作为consensus。phred-like的质量值统计为
-10 log10[1 - P(Ti|D)]
x,y表述:
P(y|x) = ( P(x|y) * P(y) ) / P(x)。
P(y|x) 是后验概率,一般是我们求解的目标。
P(x|y) 是条件概率,又叫似然概率,一般是通过历史数据统计得到。一般不把它叫做先验概率,但从定义上也符合先验定义。
P(y) 是先验概率,一般都是人主观给出的。贝叶斯中的先验概率一般特指它。
P(x) 其实也是先验概率,只是在贝叶斯的很多应用中不重要(因为只要最大后验不求绝对值),需要时往往用全概率公式计算得到。
实例:假设y是文章种类,是一个枚举值;x是向量,表示文章中各个单词的出现次数。
在拥有训练集的情况下,显然除了后验概率P(y|x)中的x来自一篇新文章无法得到,p(x),p(y),p(x|y)都是可以在抽样集合上统计出的。
最大似然理论:
认为P(x|y)最大的类别y,就是当前文档所属类别。即Max P(x|y) = Max p(x1|y)*p(x2|y)*...p(xn|y), for all y
贝叶斯理论:
认为需要增加先验概率p(y),因为有可能某个y是很稀有的类别几千年才看见一次,即使P(x|y)很高,也很可能不是它。
所以y = Max P(x|y) * P(y), 其中p(y)一般是数据集里统计出来的。
从上例来讲,贝叶斯理论显然更合理一些;但实际中很多先验概率是拍脑袋得出的(不准),有些甚至是为了方便求解方便生造出来的(硬凑),那有先验又有什么好处呢?一般攻击贝叶斯都在于这一点。
基于贝叶斯理论,GTAK统计genotype:https://gatk.broadinstitute.org/hc/en-us/articles/360035890511
GT/PL folumn for genotype and its likelihood values.
本文来自博客园,作者:BioinformaticsMaster,转载请注明原文链接:https://www.cnblogs.com/koujiaodahan/p/16007967.html
posted on 2022-03-15 13:05 BioinformaticsMaster 阅读(3697) 评论(0) 编辑 收藏 举报