05 2017 档案
摘要:一,引言 在前面六个分类算法中,都假设了最后所有的预测类别的分类代价是一样的。但是,在实际中却并非如此,往往不同的决策结果所带来的影响和代价是不一样的。比如,第五章的实例,预测患马疝病的马匹是否死亡的结果,显然,死亡和不死亡的代价不同,毕竟马匹也是有生命的存在,更何况还有跟人类之间的感情。所以,当算
阅读全文
摘要:一,引言 前面几章的介绍了几种分类算法,当然各有优缺。如果将这些不同的分类器组合起来,就构成了我们今天要介绍的集成方法或者说元算法。集成方法有多种形式:可以使多种算法的集成,也可以是一种算法在不同设置下的集成,还可以将数据集的不同部分分配不同的分类器,再将这些分类器进行集成。 adaBoost分类器
阅读全文
摘要:一引言: 支持向量机这部分确实很多,想要真正的去理解它,不仅仅知道理论,还要进行相关的代码编写和测试,二者想和结合,才能更好的帮助我们理解SVM这一非常优秀的分类算法 支持向量机是一种二类分类算法,假设一个平面可以将所有的样本分为两类,位于正侧的样本为一类,值为+1,而位于负一侧的样本为另外一类,值
阅读全文
摘要:一,引言 假设我们现有一些数据点,我们用一条直线对这些点进行拟合,这个拟合的过程就称作回归。利用logistic回归进行分类的主要思想是:根据现有数据对分类边界线建立回归公式,以此进行分类。 我们知道,logistic回归主要是进行二分类预测,也即是对于0~1之间的概率值,当概率大于0.5预测为1,
阅读全文
摘要:一,引言 前两章的KNN分类算法和决策树分类算法最终都是预测出实例的确定的分类结果,但是,有时候分类器会产生错误结果;本章要学的朴素贝叶斯分类算法则是给出一个最优的猜测结果,同时给出猜测的概率估计值。 1 准备知识:条件概率公式 相信学过概率论的同学对于概率论绝对不会陌生,如果一时觉得生疏,可以查阅
阅读全文
摘要:一,引言: 上一章我们讲的kNN算法,虽然可以完成很多分类任务,但它最大的缺点是无法给出数据的内在含义,而决策树的主要优势就在于数据形式非常容易理解。决策树算法能够读取数据集合,决策树的一个重要任务是为了数据所蕴含的知识信息,因此,决策树可以使用不熟悉的数据集合,并从中提取一系列规则,在这些机器根据
阅读全文