贝叶斯算法
1、贝叶斯要解决的问题:
正向概率:已知袋子中有N个白球和M个黑球,摸到白球的概率多大?
逆向概率:事先不知道袋子中黑白球的比例,通过摸出来球的颜色来判断球的比例。
贝叶斯是在概率的框架下实施决策的节本方法。对分类来说,在所有相关概率都已知的理想情形下,贝叶斯考虑如何基于这些概率和误判损失来按着最优的类别标记。
2、为什么贝叶斯?
我们日常所观察到的只是事物表面上的结果,因此我们需要提供一个猜测。
3、使用贝叶斯的例子:
男生总是穿长裤,女生则一半穿长裤,一半穿裙子。
正向概率:随机选取一个学生,她(他)穿长裤的概率和穿裙子的概率是多大?
逆向概率:迎面走来一个穿长裤的学生,你只看到他(她)穿的是否是长裤,而无法确定他(她)的性别,你能够推断出她(他)是女生的概率是多大吗?
4、贝叶斯公式:
P(A|B)=【P(B|A)*P(A)】/P(B)
【记忆点:求的概率 = ( 观察到的概率 × 先验概率 )/ 总概率 】
5、贝叶斯使用示例:
拼写纠错实例、垃圾邮件过滤实例、词分类
6、模型比较理论:
最大似然:最符合观测数据的(即P(B|A)最大的)最有优势。
奥卡姆剃刀:P(h)较大的模型有较大的优势,越是高阶越不常见,奥卡姆剃刀原理是简单和复杂的模型都可以解决问题,则选择简单的模型来求解。
朴素贝叶斯:假设特征之间是独立的。即P(A1 | B)* P (A2 | A1,B)= P(A1 | B)* P (A2 | B),因为A1和A2独立。