摘要:
轮廓图(Silhouette)是一种用来刻画聚类效果的度量。详细解释见:http://en.wikipedia.org/wiki/Silhouette_(clustering)定义为:对于一个样本点 i,其 Silhouette 值为:Latex Eqation:s(i)=\frac{b(i)-a(i)}{max\{a(i),b(i)\}}其中 a(i) 为点 i 与当前所属类的差异度(dissi... 阅读全文
摘要:
EM算法简述EM算法是机器学习中一个很重要的算法,即期望最大化算法,主要包括以下两个步骤: E步骤:estimate the expected values M步骤:re-estimate parameters 可以有一些比较形象的比喻说法把这个算法讲清楚。比如说食堂的大师傅炒了一份菜,要等分成两份给两个人吃,显然没有必要拿来天平一点一点的精确的去称分量,最简单的办法是先随意的把... 阅读全文
摘要:
决策树算法机器学习中,决策树是一个预测模型;它代表的是对象属性值与对象值之间的一种映射关系。树中每个节点表示某个对象,每个分叉路径则代表的某个可能的属性值,而每个叶结点则对应具有上述属性值的子对象。决策树仅有单一输出;若需要多个输出,可以建立独立的决策树以处理不同输出。每个决策树都表述了一种树型结构,它由它的分支来对该类型的对象依靠属性进行分类。每个决策树可以依靠对源数据库的分割进行数据测试。这个过程可以递归式的对树进行修剪。当不能再进行分割或一个单独的类可以被应用于某一分支时,递归过程就完成了。另外,随机森林分类器将许多决策树结合起来以提升分类的正确率。决策树同时也可以依靠计算条件概率来构造 阅读全文