摘要: 介绍基于划分的聚类方法 给定n个对象的集合,将对象划分成K个簇。每个簇至少包含一个对象。 K-Means伪代码 输入:k:簇的数目 D: 包含n个对象的数据集 输出:k个簇的集合 方法: (1) 从D中任意选择K个对象作为初始簇的中心。 (2) repeat a) 根据簇中对象的均值,将每个对象分配到最相似的簇。 b) 更新簇的均值,计算每个簇中对象的均值。 ... 阅读全文
posted @ 2015-09-22 14:02 程序员小王 阅读(441) 评论(0) 推荐(0) 编辑
摘要: 使用后处理来提高聚类性能 利用误差来评价聚类的质量 一种衡量的指标是SSE:误差平方和,该方法更为重视远离簇中心的点。 一种方法是将具有最大SSE值的簇划分成两个簇。将该簇内重新进行分簇。 如果要保持簇的数目不变,可以再讲两个粗合并。合并最小的质心或者合并两个使得SSE枕骨最小的质心。 二分K-均值算法 先将所有点作为一个簇,然后将该粗一分为2,然后再... 阅读全文
posted @ 2015-09-09 15:46 程序员小王 阅读(213) 评论(0) 推荐(0) 编辑
摘要: 前言 降维的目标就是对输入的数目进行削减,由此提出数据中的噪声并提高机器学习方法的性能。 人们在电视上看球赛的时候,已经将一百万维像素转换为了一个三维的图像。 低维数据显然是更容易处理的。 降维技术 降维技术有: 主成分分析 PCA 数据从原坐标系转换到了新的坐标系。新坐标系的选择是数据本身决定的。第一个新坐标系的选择是原始数据之中方差最大的... 阅读全文
posted @ 2015-09-08 21:57 程序员小王 阅读(204) 评论(0) 推荐(0) 编辑
摘要: 贪婪算法分阶段的工作。在每一个阶段,就认为在这个阶段所做的决定是最好的。该算法终止的时候,我们希望局部最优就是全局最优。 NP完全的意思是算法的复杂度可以用多项式来表示。 哈弗曼编码: tri树 前缀码,如果一个字符放在非树叶结点上,那就不再额能够保证译码没有二义性。 阅读全文
posted @ 2015-09-03 11:37 程序员小王 阅读(194) 评论(0) 推荐(0) 编辑
摘要: 前言 定义: 在特征空间上间隔最大的线性分类器。 核是SVM非常重要的一个特性。 支持向量机的学习策略就是间隔最大化,可形式化为一个求解凸二次规划的问题。 分类 1》线性可分支持向量机 2》线性支持向量机 3》非线性支持向量机 如果训练数据线性可分,那么可以通过硬间隔最大化,学习一个线性分类器,就是线性可分支持向量机,就是硬间隔支持向量机。 类似,如果训练... 阅读全文
posted @ 2015-09-01 22:15 程序员小王 阅读(241) 评论(0) 推荐(0) 编辑
摘要: 前言 本章的两个模型都是对数线性模型。 逻辑斯蒂分布 如果变量X服从逻辑斯蒂分布,那么X的分布一定是y轴对称的。曲线在中心部分增长的较快。两端增长缓慢。 二项逻辑斯蒂回归模型 其本质就是条件概率P(Y|X)。也就意味着给定X,求出最大可能的Y来。 Y取值只有1和0。 考虑条件概率分布。 逻辑斯蒂回归模型:输出Y=1的对数几率是输出x的线... 阅读全文
posted @ 2015-09-01 19:43 程序员小王 阅读(445) 评论(0) 推荐(0) 编辑
摘要: 使用二叉搜索树可以节约搜索的时间。搜索某个节点的时间,等于该节点的深度+1。 希望文本中出现频繁的的单词和根节点较近,较少出现的单词最好能离根节点越远越好。 最优二叉搜索树的期望搜索代价最低。但是最优二叉搜索树的高度不一定是最矮的。 考虑搜索失败的问题。如果要搜索的值没有在二叉搜索树里面,就表示搜索失败。对不在二叉搜索树里面的值,需要使用虚叶子结点。 最优二叉... 阅读全文
posted @ 2015-09-01 09:34 程序员小王 阅读(261) 评论(0) 推荐(0) 编辑
摘要: 面试的时候被问到动态规划了。你能明显感觉到面试官问的问题不是很难,都是很基础的问题,但是无奈你没学过啊。 亡羊补牢,赶紧把动态规划这部分给补上。 动态规划应用: 子问题重叠的情况。 动态规划的结果是:最优化的。 你要知道什么问题可以用来用动态规划求解: 1》知道问题有最优解 2》 能分解成子问题。将子问题的解放置在表格中。需要时从表格中读出即可。 最优子结构... 阅读全文
posted @ 2015-08-29 10:49 程序员小王 阅读(226) 评论(0) 推荐(0) 编辑
摘要: 前言:用途:分类。类似于if-then集合优点:速度快。原则:损失函数最小化,这是所有机器学习算法的原则。步骤:1> 特征选择 2> 决策树生成 3> 决策树修剪决策树模型内部结点和叶结点,太好理解了,无需讨论。if-then 集合if-then 需要保证重要的一点:就是互斥且完备。很好理解。完备保... 阅读全文
posted @ 2015-08-28 23:16 程序员小王 阅读(199) 评论(0) 推荐(0) 编辑
摘要: 需要知道的是在什么时候可以用朴素贝叶斯算法:需要保证特征条件独立。 主要过程是学习输入和输出的联合概率分布。 预测的时候,就可以根据输入获得后验概率对应的输出y。 先验概率:已知输出,求输入。后验概率相反。 简单来说朴素贝叶斯算法,就是在对样本进行学习之后,到了需要做决策的时候,给定x,... 阅读全文
posted @ 2015-08-28 21:47 程序员小王 阅读(214) 评论(0) 推荐(0) 编辑