朴素贝叶斯
朴素贝叶斯(Naive Bayes)是贝叶斯分类器(Bayesian classifier)的扩展,是贝叶斯决策论(Bayesian decision theory)的一部分。贝叶斯决策论的核心思想是选择有最高概率的决策(分类)。举个例子,有一天你走在路上听到一群狼嚎,你知道那肯定不是真的老虎,而是电视喇叭发出的声音;要是你跟朋友去某个原始森林里野营,哪怕听到一声狼叫估计也会胆战心惊,因为几乎可以断定附近有狼。
朴素贝叶斯可以用于任意分类场景中,被广泛用于文档分类,如垃圾邮件过滤,新闻分类等。朴素贝叶斯方法被称作“朴素”是因为它的假设:
a. 各个特征之间相互独立
b. 各个特征的重要性相同
第一个假设认为每个特征都是不相关的,即一个特征的值不会影响另一个特征的取值。而在实际中,这显然是很难满足的假设。对于邮件归类问题,假如我们使用单词作为特征,那么该假设认为每个单词的出现是无关的。然而现实中,某些单词却像亲兄弟一样经常成对出现。比如如果一个邮件中出现了“肥胖”这个词,那么我们可以猜到“吃”、“垃圾食品”、“健康”、“减肥”等词汇极有可能出现,因为它们与“肥胖”有着极强的关联。
同样对于邮件分类问题,第二个假设则认为每个单词对于邮件的归类的重要性相同。然而大多数情况下,我们只要扫一眼邮件,如果看到“特惠”或者“清仓”几乎可以确定是商家推销的邮件,无需再深入去看邮件内容。对于新闻内容的分类,如果出现“本拉登”或者“911”,你也一定立马会知道这篇新闻是关于恐怖主义的。因此实际中选取的特征重要性很难相同。
由于朴素贝叶斯做出的两个假设在实际应用中看起来很“naive”,因此这种方法被称为"Naive Bayes"。
虽然朴素贝叶斯方法的假设有点“too young too simple”,但也正是因为它这天真的假设大大简化了计算过程,并在实际应用中取得很好的效果。
conditional independence
laplace校准
prepare: bag-of-words document model
例子1 垃圾邮件过滤
例子2