摘要: 轮廓图(Silhouette)是一种用来刻画聚类效果的度量。详细解释见:http://en.wikipedia.org/wiki/Silhouette_(clustering)定义为:对于一个样本点 i,其 Silhouette 值为:Latex Eqation:s(i)=\frac{b(i)-a(i)}{max\{a(i),b(i)\}}其中 a(i) 为点 i 与当前所属类的差异度(dissi... 阅读全文
posted @ 2012-01-05 14:34 哈度普 阅读(4392) 评论(0) 推荐(1) 编辑
摘要: EM算法简述EM算法是机器学习中一个很重要的算法,即期望最大化算法,主要包括以下两个步骤: E步骤:estimate the expected values M步骤:re-estimate parameters 可以有一些比较形象的比喻说法把这个算法讲清楚。比如说食堂的大师傅炒了一份菜,要等分成两份给两个人吃,显然没有必要拿来天平一点一点的精确的去称分量,最简单的办法是先随意的把... 阅读全文
posted @ 2012-01-05 10:15 哈度普 阅读(747) 评论(1) 推荐(0) 编辑
摘要: 决策树算法机器学习中,决策树是一个预测模型;它代表的是对象属性值与对象值之间的一种映射关系。树中每个节点表示某个对象,每个分叉路径则代表的某个可能的属性值,而每个叶结点则对应具有上述属性值的子对象。决策树仅有单一输出;若需要多个输出,可以建立独立的决策树以处理不同输出。每个决策树都表述了一种树型结构,它由它的分支来对该类型的对象依靠属性进行分类。每个决策树可以依靠对源数据库的分割进行数据测试。这个过程可以递归式的对树进行修剪。当不能再进行分割或一个单独的类可以被应用于某一分支时,递归过程就完成了。另外,随机森林分类器将许多决策树结合起来以提升分类的正确率。决策树同时也可以依靠计算条件概率来构造 阅读全文
posted @ 2012-01-05 09:26 哈度普 阅读(993) 评论(0) 推荐(0) 编辑