2014年3月11日
摘要: 1.KNN原理:2.KNN特点:2.1.惰性学习。将所有计算推迟到分类(test)阶段之后。2.2.要求邻居已经正确分类。这被视为当做训练样本集的算法2.3.一般情况下,计算欧氏距离。要求变量是连续的。对于文本分类这种非连续的,可以使用重叠度量或者海明距离作为度量。2.4.多数表决。2.5.基于实例的学习3.KNN步骤:3.1.计算新输入样本距离所有训练样本的距离。遍历所有的样本3.2.选择K个距离最小的训练样本。排序算法3.3.计算这K个样本中所含样本数最多的类。计数4.KNN缺陷及改进方法:4.1.计算量大。需要计算新输入样本到所有样本的距离。4.2.K值不能自适应,需要提前设定哪种算法的 阅读全文
posted @ 2014-03-11 23:25 onesteng 阅读(593) 评论(0) 推荐(0) 编辑
摘要: 随机森林由决策树组成,这些决策树是随机的,随机性由随机选择属性、数据决定。由于这个特点,这些决策树也叫随机决策树。随机性可以避免过分拟合。测试数据进入随机森林时,实质是由一个个决策树进行分类,最后的类别由这些决策树的输出的众数决定。ID3、C4.5算法的区别是,ID3处理离散值,C4.5处理连续值某个属性的信息增益越大,说明这个属性越重要。随机森林构造过程: 5.1如果数据集包含N条数据,则随机有放回的选择N个样本.这是决策树随机性的一个保证. 5.2当有M个属性时,在决策树每次需要分裂时,从M个属性中随机选择m个属性(m<<M).在这m个属性中,选择一种策略进行分裂(信息增益), 阅读全文
posted @ 2014-03-11 00:08 onesteng 阅读(1706) 评论(0) 推荐(0) 编辑