随笔档案「2012年7月25日」：数据挖掘十大算法之—K-Means ... - Core Hua

2012年7月25日

摘要： K-均值法也叫C-均值法，它是一种广泛使用的聚类方法。它以K为输入参数，把n个对象的集合分为k个簇，使得簇内的相似度尽可能高，而簇间的相似度尽可能的低。 K均值基于误差平方和准则。随机选择k个对象，每个对象代表一个簇的初始均值。对于下的每个对象，根据其与各个簇的均值的距离，将它指派到最相似的簇（距离最小）。然后计算每个簇的新的均值。此过程不断重复，直至准则函数收敛。误差平方和定义... 阅读全文

posted @ 2012-07-25 23:48 Core Hua 阅读(2539) 评论(0) 推荐(0)

数据挖掘十大算法之—C4.5

摘要： C4.5是一系列用在机器学习和数据挖掘的分类问题中的算法。它的目标是监督学习：给定一个数据集，其中的每一个元组都能用一组属性值来描述，每一个元组属于一个互斥的类别中的某一类。C4.5的目标是通过学习，找到一个从属性值到类别的映射关系，并且这个映射能用于对新的类别未知的实体进行分类。 C4.5由J.Ross Quinlan在ID3的基础上提出的。ID3算法用来构造决策树。决策树是一... 阅读全文

posted @ 2012-07-25 22:47 Core Hua 阅读(40612) 评论(3) 推荐(2)

支持向量机（3）

摘要：第二篇主要是讲述了SVM中最简单的情况，也就是线性可分的两类问题。在前面给出的公式中，对Lagrange函数的产生过程及接下来的推导还是有一些疑问，后来查了一些资料，终于释放掉心中的疑云，现记录如下。有疑问的地方是：前文说的最优分类面问题转化成如下的约束优化问题，即在条件的约束下，求函数的最小值。这是没问题的，但是紧接着作者通过定... 阅读全文

posted @ 2012-07-25 01:18 Core Hua 阅读(761) 评论(0) 推荐(0)

Core Hua

Fighting

公告