机器学习笔记-------贝叶斯算法1

Hello,我就是人见人爱,花见花开,蜜蜂见了会打转的小花。。哈哈,我们终于讲到了当年大学让我头痛不已的贝叶斯。先给个模型:

模型

一:贝叶斯定理

维基百科定义:贝叶斯定理(英语:Bayes' theorem)是概率论中的一个定理,它跟随机变量条件概率以及边缘概率分布有关。在有些关于概率的解说中,贝叶斯定理(贝叶斯更新)能够告知我们如何利用新证据修改已有的看法。这个名称来自于托马斯·贝叶斯

通常,事件A在事件B(发生)的条件下的概率,与事件B在事件A的条件下的概率是不一样的;然而,这两者是有确定的关系,贝叶斯定理就是这种关系的陈述。贝叶斯公式的用途在于通过己知三个概率函数推出第四个。它的内容是:在B出现的前提下,A出现的概率等于A和B都出现的概率除以B出现的概率。通过联系A与B,计算从一个事件产生另一事件的概率,即从结果上溯原。

作为一个普遍的原理,贝叶斯定理对于所有概率的解释是有效的;然而,频率主义者贝叶斯主义者对于在应用中,某个随机事件的概率该如何被赋值,有着不同的看法:频率主义者根据随机事件发生的频率,或者总体样本里面的发生的个数来赋值概率;贝叶斯主义者则根据未知的命题来赋值概率。这样的理念导致贝叶斯主义者有更多的机会使用贝叶斯定理。

· 事件A在事件B(发生)的条件下的概率,与事件B在事件A的条件下的概率是不一样的。这句话我们可以这样理解:你喜欢一个妹子,这是事件A,妹子喜欢你的概率是B,记为P(B|A);那么P(A|B)是妹子喜欢你,你喜欢妹子的概率。这两个是不是不一样啊,因为大家保持单身的唯一理由就是:我喜欢的不喜欢我,喜欢我的,我不喜欢。。。。哈哈。后来伟大的爱情学家托马斯·贝叶斯给了我们一个关系式:

贝叶斯定理

妹子喜欢你的情况下,你喜欢妹子的概率=你喜欢妹子的情况下,妹子喜欢你的概率*你喜欢妹子的概率|妹子喜欢你的概率。这就是传说中的爱情公式,请小伙伴们抓紧学习。哈哈,开个玩笑,咱们回归正文。

二 贝叶斯方法概述

朴素贝叶斯法是基于贝叶斯定理,与特征条件独立假设的分类算法。给你数据集,然后后我们假设各个事件发生都是相对独立的,算法会学习这个数据集输入/输出之间的联合概率分布,我们就用这个模型,给定一个X,输出最大的可能性。起到预测的作用。

三 算法公式变换.

朴素贝叶斯法通过训练数据集学习联合概率分布p(X,Y).具体地,学习以下先验概率分布及条件概率分布。先验概率分布为:

P(Y=CK),K=1,2,….K

条件概率分布:

条件概率分布

 

然后学习到联合概率分布P(X,Y).

要计算联合概率分布,就要对条件概率分布进行条件独立性假设,条件概率性假设是:

公式4.1 

朴素贝叶斯实际上学习到生成数据的机制,属于生成模型。朴素贝叶斯就是给你一个输入X,然后通过对之前数据的处理(学习)计算后验概率分布P=(Y=CK|X=x),然后将MAX(P=(Y=CK|X=x))作为输入X的最大输出类。(X, MAX(P=(Y=CK|X=x))。下面我们就来证明公式:

根据贝叶斯定理得后验概率:

公式4.2

将上式两式合并:

公式4.3

输出:

公式4.4

对于上式中分母对所有Ck都是相同的,所以:

公式4.5

 

四 朴素贝叶斯的参数估计

在朴素贝叶斯算法中,其实学习过程就是估计p(Y=CK)和P(X(j)=x(j)|Y=CK),我们可以使用极大似然法估计相应的概率。我先给出百度百科极大似然估计的原理 ,我会在之后的篇章中详细讲解。

极大似然估计原理如下:它是建立在极大似然原理的基础上的一个统计方法,极大似然原理的直观想法是:一个随机试验如有若干个可能的结果ABC。若在仅仅作一次试验中,结果A出现,则一般认为试验条件对A出现有利,也即A出现的概率很大。一般地,事件A发生的概率与参数theta相关,A发生的概率记为P(Atheta),则theta的估计应该使上述概率达到最大,这样的theta顾名思义称为极大似然估计。

先验概率P(Y=CK)的极大似然估计是: 参数估计

现在假设输入X的第j个特征可能取值的集合为{aj1,aj2,….,ajn},那么条件概率P(X(j)=x(j)|Y=CK)的极大似然估计是:

后验概率极大似然估计

其中XI(j)是第i个样本的第j个特征;ajl是第j个特征可能取的第l个值,其中I为指示函数。下面给出指示函数百度百科定义:

指示函数 

本文完,下一篇讲朴素贝叶斯的算法实战部分。如果大家有什么不明白的可以加我qq:759558806

本文申明:本文部分内容来自百度百科以及参考了李航博士的统计学习方法这本书

posted @ 2016-09-13 10:12  刘岩--  阅读(11810)  评论(0编辑  收藏  举报