摘要: K-均值法也叫C-均值法,它是一种广泛使用的聚类方法。它以K为输入参数,把n个对象的集合分为k个簇,使得簇内的相似度尽可能高,而簇间的相似度尽可能的低。 K均值基于误差平方和准则。随机选择k个对象,每个对象代表一个簇的初始均值。对于下的每个对象,根据其与各个簇的均值的距离,将它指派到最相似的簇(距离最小)。然后计算每个簇的新的均值。此过程不断重复,直至准则函数收敛。误差平方和定义... 阅读全文
posted @ 2012-07-25 23:48 Core Hua 阅读(2509) 评论(0) 推荐(0) 编辑
摘要: C4.5是一系列用在机器学习和数据挖掘的分类问题中的算法。它的目标是监督学习:给定一个数据集,其中的每一个元组都能用一组属性值来描述,每一个元组属于一个互斥的类别中的某一类。C4.5的目标是通过学习,找到一个从属性值到类别的映射关系,并且这个映射能用于对新的类别未知的实体进行分类。 C4.5由J.Ross Quinlan在ID3的基础上提出的。ID3算法用来构造决策树。决策树是一... 阅读全文
posted @ 2012-07-25 22:47 Core Hua 阅读(40499) 评论(3) 推荐(2) 编辑
摘要: 第二篇主要是讲述了SVM中最简单的情况,也就是线性可分的两类问题。在前面给出的公式中,对Lagrange函数的产生过程及接下来的推导还是有一些疑问,后来查了一些资料,终于释放掉心中的疑云,现记录如下。 有疑问的地方是: 前文说的最优分类面问题转化成如下的约束优化问题,即在条件 的约束下,求函数 的最小值。这是没问题的,但是紧接着作者通过定... 阅读全文
posted @ 2012-07-25 01:18 Core Hua 阅读(747) 评论(0) 推荐(0) 编辑