2014 年 3月 11 日随笔档案 - onesteng

2014年3月11日

摘要： 1.KNN原理：2.KNN特点：2.1.惰性学习。将所有计算推迟到分类（test）阶段之后。2.2.要求邻居已经正确分类。这被视为当做训练样本集的算法2.3.一般情况下，计算欧氏距离。要求变量是连续的。对于文本分类这种非连续的，可以使用重叠度量或者海明距离作为度量。2.4.多数表决。2.5.基于实例的学习3.KNN步骤：3.1.计算新输入样本距离所有训练样本的距离。遍历所有的样本3.2.选择K个距离最小的训练样本。排序算法3.3.计算这K个样本中所含样本数最多的类。计数4.KNN缺陷及改进方法：4.1.计算量大。需要计算新输入样本到所有样本的距离。4.2.K值不能自适应，需要提前设定哪种算法的阅读全文

posted @ 2014-03-11 23:25 onesteng 阅读(593) 评论(0) 推荐(0) 编辑

数据挖掘-分类-随机森林

摘要：随机森林由决策树组成,这些决策树是随机的,随机性由随机选择属性、数据决定。由于这个特点，这些决策树也叫随机决策树。随机性可以避免过分拟合。测试数据进入随机森林时，实质是由一个个决策树进行分类，最后的类别由这些决策树的输出的众数决定。ID3、C4.5算法的区别是，ID3处理离散值，C4.5处理连续值某个属性的信息增益越大，说明这个属性越重要。随机森林构造过程: 5.1如果数据集包含N条数据,则随机有放回的选择N个样本.这是决策树随机性的一个保证. 5.2当有M个属性时，在决策树每次需要分裂时，从M个属性中随机选择m个属性（m<<M）.在这m个属性中，选择一种策略进行分裂（信息增益），阅读全文

posted @ 2014-03-11 00:08 onesteng 阅读(1706) 评论(0) 推荐(0) 编辑

公告