摘要: 前言Decision tree is one of the most popular classification tools它用一个训练数据集学到一个映射,该映射以未知类别的新实例作为输入,输出对这个实例类别的预测。决策树相当于将一系列问题组织成树,具体说,每个问题对应一个属性,根据属性值来生成判断分支,一直到决策树的叶节点就产生了类别。那么,接下来的问题就是怎么选择最佳的属性作为当前的判断分支... 阅读全文
posted @ 2016-04-20 19:16 木白的菜园 阅读(622) 评论(0) 推荐(0) 编辑
摘要: 前言这是一个KNN算法的应用实例,参考《机器学习实战》中的datingTestSet2.txt的数据集。可以通过对不同约会对象的特征进行分析然后自动得出以下三种结论:不喜欢的有点魅力的很有魅力的准备数据这个数据集中针对每一个约会对象收集了三种具有代表性的特征,分别是:每年获得的飞行常客里程数玩网游所消耗的时间比每年消耗的冰淇淋公升数然后对每个约会对象的三种结论进行打分,对应的分数分别为1、2、3。... 阅读全文
posted @ 2016-04-20 14:33 木白的菜园 阅读(1193) 评论(0) 推荐(0) 编辑
摘要: 基本原理KNN算法又叫最近邻居法,是一种非常简单易于掌握的分类算法。其基本原理是,存在一个已知标签的数据集合,也就是训练样本集。这个样本集中的每一个数据所属的分类都是已知的。当一个没有标签的新数据需要确定自己属于哪个分类的时候,只需要把新数据的每个特征和训练集中的每个数据的特征进行比较,找出其中和新数据最相似(最近邻)的k个数据,算法取这k个数据中出现次数最多的标签作为新数据的类别。通常k不大于2... 阅读全文
posted @ 2016-04-20 14:26 木白的菜园 阅读(1277) 评论(1) 推荐(0) 编辑