程序员小王 - 博客园

2015年9月22日

摘要：介绍基于划分的聚类方法给定n个对象的集合，将对象划分成K个簇。每个簇至少包含一个对象。 K-Means伪代码输入：k:簇的数目 D: 包含n个对象的数据集输出：k个簇的集合方法： (1) 从D中任意选择K个对象作为初始簇的中心。 (2) repeat a) 根据簇中对象的均值，将每个对象分配到最相似的簇。 b) 更新簇的均值，计算每个簇中对象的均值。 ... 阅读全文

posted @ 2015-09-22 14:02 程序员小王阅读(441) 评论(0) 推荐(0) 编辑

2015年9月9日

机器学习实战 -> 无监督学习

摘要：使用后处理来提高聚类性能利用误差来评价聚类的质量一种衡量的指标是SSE：误差平方和，该方法更为重视远离簇中心的点。一种方法是将具有最大SSE值的簇划分成两个簇。将该簇内重新进行分簇。如果要保持簇的数目不变，可以再讲两个粗合并。合并最小的质心或者合并两个使得SSE枕骨最小的质心。二分K-均值算法先将所有点作为一个簇，然后将该粗一分为2，然后再... 阅读全文

posted @ 2015-09-09 15:46 程序员小王阅读(213) 评论(0) 推荐(0) 编辑

2015年9月8日

机器学习实战 -> 利用PCA&&SVD来简化数据

摘要：前言降维的目标就是对输入的数目进行削减，由此提出数据中的噪声并提高机器学习方法的性能。人们在电视上看球赛的时候，已经将一百万维像素转换为了一个三维的图像。低维数据显然是更容易处理的。降维技术降维技术有：主成分分析 PCA 数据从原坐标系转换到了新的坐标系。新坐标系的选择是数据本身决定的。第一个新坐标系的选择是原始数据之中方差最大的... 阅读全文

posted @ 2015-09-08 21:57 程序员小王阅读(204) 评论(0) 推荐(0) 编辑

2015年9月3日

贪婪算法

摘要：贪婪算法分阶段的工作。在每一个阶段，就认为在这个阶段所做的决定是最好的。该算法终止的时候，我们希望局部最优就是全局最优。 NP完全的意思是算法的复杂度可以用多项式来表示。哈弗曼编码： tri树前缀码，如果一个字符放在非树叶结点上，那就不再额能够保证译码没有二义性。阅读全文

posted @ 2015-09-03 11:37 程序员小王阅读(194) 评论(0) 推荐(0) 编辑

2015年9月1日

统计学习方法 –> 支持向量机

摘要：前言定义: 在特征空间上间隔最大的线性分类器。核是SVM非常重要的一个特性。支持向量机的学习策略就是间隔最大化，可形式化为一个求解凸二次规划的问题。分类 1》线性可分支持向量机 2》线性支持向量机 3》非线性支持向量机如果训练数据线性可分，那么可以通过硬间隔最大化，学习一个线性分类器，就是线性可分支持向量机，就是硬间隔支持向量机。类似，如果训练... 阅读全文

posted @ 2015-09-01 22:15 程序员小王阅读(241) 评论(0) 推荐(0) 编辑

统计学习方法 –> 逻辑死地回归与最大熵模型

摘要：前言本章的两个模型都是对数线性模型。逻辑斯蒂分布如果变量X服从逻辑斯蒂分布，那么X的分布一定是y轴对称的。曲线在中心部分增长的较快。两端增长缓慢。二项逻辑斯蒂回归模型其本质就是条件概率P(Y|X)。也就意味着给定X，求出最大可能的Y来。 Y取值只有1和0。考虑条件概率分布。逻辑斯蒂回归模型：输出Y=1的对数几率是输出x的线... 阅读全文

posted @ 2015-09-01 19:43 程序员小王阅读(445) 评论(0) 推荐(0) 编辑

最优二叉搜索树

摘要：使用二叉搜索树可以节约搜索的时间。搜索某个节点的时间，等于该节点的深度+1。希望文本中出现频繁的的单词和根节点较近，较少出现的单词最好能离根节点越远越好。最优二叉搜索树的期望搜索代价最低。但是最优二叉搜索树的高度不一定是最矮的。考虑搜索失败的问题。如果要搜索的值没有在二叉搜索树里面，就表示搜索失败。对不在二叉搜索树里面的值，需要使用虚叶子结点。最优二叉... 阅读全文

posted @ 2015-09-01 09:34 程序员小王阅读(261) 评论(0) 推荐(0) 编辑

2015年8月29日

动态规划

摘要：面试的时候被问到动态规划了。你能明显感觉到面试官问的问题不是很难，都是很基础的问题，但是无奈你没学过啊。亡羊补牢，赶紧把动态规划这部分给补上。动态规划应用：子问题重叠的情况。动态规划的结果是：最优化的。你要知道什么问题可以用来用动态规划求解： 1》知道问题有最优解 2》能分解成子问题。将子问题的解放置在表格中。需要时从表格中读出即可。最优子结构... 阅读全文

posted @ 2015-08-29 10:49 程序员小王阅读(226) 评论(0) 推荐(0) 编辑

2015年8月28日

统计学习方法–> 决策树

摘要：前言：用途：分类。类似于if-then集合优点：速度快。原则：损失函数最小化，这是所有机器学习算法的原则。步骤：1> 特征选择 2> 决策树生成 3> 决策树修剪决策树模型内部结点和叶结点，太好理解了，无需讨论。if-then 集合if-then 需要保证重要的一点：就是互斥且完备。很好理解。完备保... 阅读全文

posted @ 2015-08-28 23:16 程序员小王阅读(199) 评论(0) 推荐(0) 编辑

统计学习方法 -> 朴素贝叶斯算法

摘要：需要知道的是在什么时候可以用朴素贝叶斯算法：需要保证特征条件独立。主要过程是学习输入和输出的联合概率分布。预测的时候，就可以根据输入获得后验概率对应的输出y。先验概率：已知输出，求输入。后验概率相反。简单来说朴素贝叶斯算法，就是在对样本进行学习之后，到了需要做决策的时候，给定x，... 阅读全文

posted @ 2015-08-28 21:47 程序员小王阅读(214) 评论(0) 推荐(0) 编辑

公告