摘要: 贝叶斯决策一直很有争议,今年是贝叶斯250周年,历经沉浮,今天它的应用又开始逐渐活跃,有兴趣的可以看看斯坦福Brad Efron大师对其的反思,两篇文章:“Bayes'Theorem in the 21st Century”和“A250-YEAR ARGUMENT:BELIEF, BEHAVIOR, AND THE BOOTSTRAP”。俺就不参合这事了,下面来看看朴素贝叶斯分类器。 有时我们想知道给定一个样本时,它属于每个类别的概率是多少,即P(Ci|X),Ci表示类别,X表示测试样本,有了概率后我们可以选择最大的概率的类别。要求这个概率要用经典贝叶斯公式,如(公式一)所示:(公式一 阅读全文
posted @ 2013-09-24 19:39 kobeshow 阅读(377) 评论(0) 推荐(0) 编辑
摘要: 决策树也是有监督机器学习方法。 电影《无耻混蛋》里有一幕游戏,在德军小酒馆里有几个人在玩20问题游戏,游戏规则是一个设迷者在纸牌中抽出一个目标(可以是人,也可以是物),而猜谜者可以提问题,设迷者只能回答是或者不是,在几个问题(最多二十个问题)之后,猜谜者通过逐步缩小范围就准确的找到了答案。这就类似于决策树的工作原理。(图一)是一个判断邮件类别的工作方式,可以看出判别方法很简单,基本都是阈值判断,关键是如何构建决策树,也就是如何训练一个决策树。(图一)构建决策树的伪代码如下:Check if every item in the dataset is in the same class: If.. 阅读全文
posted @ 2013-09-24 18:15 kobeshow 阅读(556) 评论(0) 推荐(0) 编辑
摘要: 机器学习分两大类,有监督学习(supervised learning)和无监督学习(unsupervised learning)。有监督学习又可分两类:分类(classification.)和回归(regression),分类的任务就是把一个样本划为某个已知类别,每个样本的类别信息在训练时需要给定,比如人脸识别、行为识别、目标检测等都属于分类。回归的任务则是预测一个数值,比如给定房屋市场的数据(面积,位置等样本信息)来预测房价走势。而无监督学习也可以成两类:聚类(clustering)和密度估计(density estimation),聚类则是把一堆数据聚成弱干组,没有类别信息;密度估计则是. 阅读全文
posted @ 2013-09-24 16:29 kobeshow 阅读(584) 评论(0) 推荐(0) 编辑
摘要: 现在貌似In Action很流行,各种技术抽象成工程商的Action,可以避开繁琐的内部原理,这本书从实践出发,通俗易懂的解释那些常用的机器学习算法,类似跟《集体智慧编程》。这本书中文出版后,我也立马买了一本读读,全书分别介绍了分类,回归,无监督学习以及降维等基本算法,最后还讲了一下Big Data in Machine Learning,利用MRJob写了SVM算法。代码也很规范,另外作者的代码网址https://github.com/pbharrin/machinelearninginaction。 关于本书的算法笔记,我转载了水木统计群里一位群友的笔记http://blog.csdn.. 阅读全文
posted @ 2013-09-24 15:48 kobeshow 阅读(567) 评论(0) 推荐(0) 编辑