摘要: 一。简介 随机森林,即用随机的方式建立一个森林,森林是由很多决策树组成。每一个决策树之间都是没有关联的。在得到森林之后,对于测试集,要让每一棵决策树分别进行一下判断该样本属于哪一类。根据哪个类被选择的多,该样本就是属于哪一类。 比喻的说法: 每一棵决策树就是一个精通于某一个窄领域的专家(因为我们从M 阅读全文
posted @ 2017-08-27 10:16 岁月静好--lyr 阅读(167) 评论(0) 推荐(0) 编辑
摘要: 一。简介 Brich是典型的基于层次的聚类算法。最大的特点就是适合数据量特别大的数据集,处理速度很快,因为该算法扫描一遍数据集。 该算法是利用了一个树状结构来快速聚类,该结构类似平衡B+树。每一个叶子节点都包含若干个聚类特征。 阅读全文
posted @ 2017-08-27 09:42 岁月静好--lyr 阅读(508) 评论(0) 推荐(0) 编辑
摘要: 一。基于密度的聚类算法简介 DBSCAN是数据挖掘中最经典基于密度的聚类算法。 基于密度的聚类算法的核心是,通过某个点r邻域内样本点的数量来衡量该点所在空间的密度。和k-means算法的不同的是: 1.可以不需要事先指定cluster的个数。 2.可以找出不规则形状的cluster。 二。DBSCA 阅读全文
posted @ 2017-08-27 09:10 岁月静好--lyr 阅读(3699) 评论(0) 推荐(0) 编辑