002-贝叶斯拼写纠正实例
拼写纠正实例:
问题是我们看到用户输入了一个不在字典中的单词,我们需要去猜测:“这个家伙到底真正想输入的单词是什么呢?
P(我们猜测他想输入的单词| 他实际输入的单词)
用户实际输入的单词记为D (D 代表Data ,即观测数据)
猜测1:P(h1 | D),猜测2:P(h2 | D),猜测3:P(h1 | D) 。。。
统一为:P(h | D)
$P(h|D)=\frac{ P(h) \times P(D|h)}{ P(D)}$
例如:
P(h1)是词库中the的概率(占比)
P(h2)是词库中than的概率(占比)
P(h)也叫作先验概率,就是猜测的词本身的概率
P(D|h)代表在猜测发生的条件下,实际发生某一个事件的概率
P(D)-是用户实际输入的单词在词库中的概率,对于本实例无用,后面可以约分掉,其实是一个常数
对于不同的具体猜测h1 h2 h3 .. ,P(D) 都是一样的,所以在比较P(h1 | D) 和P(h2 | D) 的时候我们可以忽略这个常数
P(h | D) ∝ P(h) * P(D | h)
对于给定观测数据,一个猜测是好是坏,取决于“这个猜测本身独立的可能性大小(先验概率,Prior )”和“这个猜测生成我们观测到的数据的可能性大小。
也就是,在实际输入一个词的条件下,猜测某一个词的概率与“猜测某一个词本身的概率(猜测的词在词库中的占比)”和“在猜测某一个词的条件下,实际输入某一个词概率”成正比关系。
贝叶斯方法计算:P(h) * P(D | h),P(h) 是特定猜测的先验概率
比如用户输入tlp,那到底是top 还是tip ?这个时候,当最大似然不能作出决定性的判断时,先验概率就可以插手进来给出指示——“既然你无法决定,那么我告诉你,一般来说top 出现的程度要高许多,所以更可能他想打的是top ”
模型比较理论
最大似然:最符合观测数据的(即P(D | h) 最大的)最有优势
奥卡姆剃刀:P(h) 较大的模型有较大的优势
掷一个硬币(只投掷一次),观察到的是“正”,根据最大似然估计的精神,我们应该猜测这枚硬币掷出“正”的概率是1,因为这个才是能最大化P(D | h) 的那个猜测
奥卡姆剃刀:
如果平面上有N 个点,近似构成一条直线,但绝不精确地位于一条直线上。这时我们既可以用直线来拟合(模型1),也可以用二阶多项式(模型2)拟合,也可以用三阶多项式(模型3),特别地,用N-1 阶多项式便能够保证肯定能完美通过N 个数据点。那么,这些可能的模型之中到底哪个是最靠谱的呢?
奥卡姆剃刀:越是高阶的多项式越是不常见
垃圾邮件过滤实例:
问题:给定一封邮件,判定它是否属于垃圾邮件
D 来表示这封邮件,注意D 由N 个单词组成。我们用h+ 来表示垃圾邮件,h-表示正常邮件
$P(h+|D) = \frac{P(h+) * P(D|h+) }{P(D)}$
$P(h-|D) = \frac{P(h-) * P(D|h-) }{P(D)}$
P(D)对于比较P(h+|D)与P(h-|D)没有关系,所以可以去掉。
先验概率:P(h+) 和P(h-) 这两个先验概率都是很容易求出来的,只需要计算一个邮件库里面垃圾邮件和正常邮件的比例就行了。
D 里面含有N 个单词d1, d2, d3,P(D|h+) = P(d1,d2,..,dn|h+)
P(d1,d2,..,dn|h+) 就是说在垃圾邮件当中出现跟我们目前这封邮件一模一样的一封邮件的概率是多大!这个概率非常小,比如一封垃圾邮件和实际邮件完全相同的概率是多大?当然是非常小。
P(d1,d2,..,dn|h+)扩展为:P(d1|h+) * P(d2|d1, h+) * P(d3|d2,d1, h+) * ..
扩展解释:判断为垃圾邮件的情况下出现词d1的概率*判断为垃圾邮件的情况下出现词d1后又出现词d2的概率*判断为垃圾邮件的情况下出现词d1后又出现词d2又出现d3的概率.......
朴素贝叶斯:
P(d1|h+) * P(d2|d1, h+) * P(d3|d2,d1, h+) * ..
假设di 与di-1 是完全条件无关的(朴素贝叶斯假设特征之间是独立,互不影响)
简化为P(d1|h+) * P(d2|h+) * P(d3|h+) * ..
对于P(d1|h+) * P(d2|h+) * P(d3|h+) * ..只要统计di 这个单词在垃圾邮件中出现的频率即可
也就是判断为垃圾邮件的情况下 d1出现的概率*判断为垃圾邮件的情况下 d2出现的概率*判断为垃圾邮件的情况下 d3出现的概率