摘要:
拖拖拉拉写了很久的书《大数据处理框架Apache Spark设计与实现》终于出版了。书的内容是以Apache Spark为主,系统总结了大数据处理框架的一些基本问题、设计原理、实现方案、以及性能和可靠性。相比之前在github上写的 《SparkInternals》,内容更完善专业深入,书中大概有一 阅读全文
摘要:
很多网友找我要PDF版的所有笔记,我找了下以前的,一并压缩了一下。由于cnblogs不能上传10M以上的压缩包,我将其分成了两个:斯坦福大学机器学习课程个人学习笔记(上).zip斯坦福大学机器学习课程个人学习笔记(下).zip一并附上原始讲义:斯坦福大学机器学习课程原始讲义.zip说明:这里面的内容是我在2011年上半年学习斯坦福大学《机器学习》课程的个人学习笔记,内容主要来自Andrew Ng教授的讲义和学习视频。另外也包含来自其他论文和其他学校讲义的一些内容。每章内容主要按照个人学习时的思路总结得到。由于是个人笔记,里面表述错误、公式错误、理解错误、笔误都会存在。更重要的是我是初学者,千万 阅读全文
2013年4月27日
摘要:
友情序言获悉Spark最近要出书了,突然有很多感慨,心想不如写点东西出来,算是友情支持,也算是个人总结。观点尽量中立,内容尽量煽情。本着牛哥“站在巨人的肩膀上”的理论,在捧Spark之前,要先捧一下她的前辈们。大数据系统中最核心的莫过于分布式处理框架,因为框架负责job执行的方方面面,如job分解、task调度与执行、错误容忍、数据流等等。较早(04年发表)也是最重要的贡献是Google的MapReduce框架,她将函数式编程思想引入到分布式数据处理中,仅仅用两个函数(map和reduce)就解决了一大类的大数据批处理问题,用户也再也不用担心分布式带来的诸多系统层面问题。MapReduce缺点 阅读全文
2012年8月13日
摘要:
基于Spark-0.4和Hadoop-0.20.21. Kmeans数据:自己产生的三维数据,分别围绕正方形的8个顶点{0, 0, 0}, {0, 10, 0}, {0, 0, 10}, {0, 10, 10},{10, 0, 0}, {10, 0, 10}, {10, 10, 0}, {10, 10, 10}Point number189,918,082 (1亿9千万个三维点)Capacity10GBHDFS Location/user/LijieXu/Kmeans/Square-10GB.txt程序逻辑:读取HDFS上的block到内存,每个block转化为RDD,里面包含vector。然 阅读全文
摘要:
摘要:Spark是继Hadoop之后的新一代大数据分布式处理框架,由UC Berkeley的Matei Zaharia主导开发。我只能说是神一样的人物造就的神器,详情请猛击http://www.spark-project.org/ Created 2012-05-09 Modified 2012-08-131 Scala安装 当前,Spark最新版本是0.5,由于我写这篇文档时,版本还是0.4,因此本文下面的所有描述基于0.4版本。不过淘宝的达人已经尝试了0.5,并写了相关安装文档在此http://rdc.taobao.com/team/jm/archives/tag/spark。~~~~~. 阅读全文
2011年8月21日
摘要:
[pdf版本]偏最小二乘法回归.pdf1. 问题 这节我们请出最后的有关成分分析和回归的神器PLSR。PLSR感觉已经把成分分析和回归发挥到极致了,下面主要介绍其思想而非完整的教程。让我们回顾一下最早的Linear Regression的缺点:如果样例数m相比特征数n少(m<n)或者特征间线性相关时,由于(n*n矩阵)的秩小于特征个数(即不可逆)。因此最小二乘法就会失效。 为了解决这个问题,我们会使用PCA对样本X(m*n矩阵)进行降维,不妨称降维后的X为X’(m*r矩阵,一般加了’就表示转置,这里临时改变下),那么X’的秩为r(列不相关)。2. PCA Revisited 所谓磨刀不误 阅读全文
2011年6月20日
摘要:
[pdf版本] 典型相关分析.pdf1. 问题 在线性回归中,我们使用直线来拟合样本点,寻找n维特征向量X和输出结果(或者叫做label)Y之间的线性关系。其中,。然而当Y也是多维时,或者说Y也有多个特征时,我们希望分析出X和Y的关系。 当然我们仍然可以使用回归的方法来分析,做法如下: 假设,,那么可以建立等式Y=AX如下 其中,形式和线性回归一样,需要训练m次得到m个。 这样做的一个缺点是,Y中的每个特征都与X的所有特征关联,Y中的特征之间没有什么联系。 我们想换一种思路来看这个问题,如果将X和Y都看成整体,考察这两个整体之间的关系。我们将整体表示成X和Y各自特征间的线性组合,也就是考察和. 阅读全文
2011年5月13日
摘要:
[pdf版本]增强学习.pdf 在之前的讨论中,我们总是给定一个样本x,然后给或者不给label y。之后对样本进行拟合、分类、聚类或者降维等操作。然而对于很多序列决策或者控制问题,很难有这么规则的样本。比如,四足机器人的控制问题,刚开始都不知道应该让其动那条腿,在移动过程中,也不知道怎么让机器人自动找到合适的前进方向。 另外如要设计一个下象棋的AI,每走一步实际上也是一个决策过程,虽然对于简单的棋有A*的启发式方法,但在局势复杂时,仍然要让机器向后面多考虑几步后才能决定走哪一步比较好,因此需要更好的决策方法。 对于这种控制决策问题,有这么一种解决思路。我们设计一个回报函数(reward fu 阅读全文
2011年5月11日
摘要:
【pdf版本】因子分析1 问题 之前我们考虑的训练数据中样例的个数m都远远大于其特征个数n,这样不管是进行回归、聚类等都没有太大的问题。然而当训练样例个数m太小,甚至m<<n的时候,使用梯度下降法进行回归时,如果初值不同,得到的参数结果会有很大偏差(因为方程数小于参数个数)。另外,如果使用多元高斯分布(Multivariate Gaussian distribution)对数据进行拟合时,也会有问题。让我们来演算一下,看看会有什么问题:多元高斯分布的参数估计公式如下: 分别是求mean和协方差的公式,表示样例,共有m个,每个样例n个特征,因此是n维向量,是n*n协方差矩阵。 当m& 阅读全文
2011年4月21日
摘要:
4. 实例 将3维空间上的球体样本点投影到二维上,W1相比W2能够获得更好的分离效果。 PCA与LDA的降维对比: PCA选择样本点投影具有最大方差的方向,LDA选择分类性能最好的方向。 LDA既然叫做线性判别分析,应该具有一定的预测功能,比如新来一个样例x,如何确定其类别? 拿二值分来来说,我们可以将其投影到直线上,得到y,然后看看y是否在超过某个阈值y0,超过是某一类,否则是另一类。而怎么寻找这个y0呢? 看 根据中心极限定理,独立同分布的随机变量和符合高斯分布,然后利用极大似然估计求 然后用决策理论里的公式来寻找最佳的y0,详情请参阅PRML。 这是一种可行但比较繁琐的选取方法,可以看第 阅读全文