摘要: 聚类度量包括性能度量和距离计算, 性能度量 对数据集D={x1,x2,...,xm},假定通过聚类给出的策划为C={C1,C2,...,Ck},参考模型给出的簇划分为C‘={C'1,C'2,...C'k},相应的λ和λ‘分别表示C和C’对应的簇标记向量,将样本两两配对考虑, 由于每一个样本中仅能出现 阅读全文
posted @ 2016-12-23 17:10 nolonely 阅读(1200) 评论(0) 推荐(0) 编辑
摘要: (1)k-mean聚类 k-mean聚类比较容易理解就是一个计算距离,找中心点,计算距离,找中心点反复迭代的过程, 给定样本集D={x1,x2,...,xm},k均值算法针对聚类所得簇划分C={C1,C2,...,Ck}最小化平方误差 μi表示簇Ci的均值向量,在一定程度上刻画了簇内样本围绕均值向量 阅读全文
posted @ 2016-12-23 16:19 nolonely 阅读(818) 评论(0) 推荐(0) 编辑
摘要: 随机森林=随机+森林 森林顾名思义就是很多棵树用来做分类问题,在之前的博客中已经介绍了决策树的构建过程,森林则是这很多棵树的一个集合,主要思路是,每一颗树都有一个投票,考虑这些所有树的投票,选择票数最多的结果作为最终的结果 随机就是有很多偶然性,这里的随机包括训练每棵树的数据集是随机的(数据集采用的 阅读全文
posted @ 2016-12-23 15:42 nolonely 阅读(549) 评论(0) 推荐(0) 编辑
摘要: 别人的决策树笔记:http://blog.csdn.net/sb19931201/article/details/52491430 决策树是一种最常见的分类模型,决策树是基于树结构来进行决策的,一个决策树的图如下所示 决策过程的最终结论对应了我们希望的判定结果。 决策树的基本学习算法如下: 构建树的 阅读全文
posted @ 2016-12-23 10:50 nolonely 阅读(1445) 评论(0) 推荐(0) 编辑