JerryLead

[置顶] 撰写的《大数据处理框架Apache Spark设计与实现》出版了

摘要：拖拖拉拉写了很久的书《大数据处理框架Apache Spark设计与实现》终于出版了。书的内容是以Apache Spark为主，系统总结了大数据处理框架的一些基本问题、设计原理、实现方案、以及性能和可靠性。相比之前在github上写的《SparkInternals》，内容更完善专业深入，书中大概有一阅读全文

posted @ 2020-07-21 11:52 JerryLead 阅读(2756) 评论(5) 推荐(2)

[置顶] PDF版学习笔记

摘要：很多网友找我要PDF版的所有笔记，我找了下以前的，一并压缩了一下。由于cnblogs不能上传10M以上的压缩包，我将其分成了两个：斯坦福大学机器学习课程个人学习笔记（上）.zip斯坦福大学机器学习课程个人学习笔记（下）.zip一并附上原始讲义：斯坦福大学机器学习课程原始讲义.zip说明：这里面的内容是我在2011年上半年学习斯坦福大学《机器学习》课程的个人学习笔记，内容主要来自Andrew Ng教授的讲义和学习视频。另外也包含来自其他论文和其他学校讲义的一些内容。每章内容主要按照个人学习时的思路总结得到。由于是个人笔记，里面表述错误、公式错误、理解错误、笔误都会存在。更重要的是我是初学者，千万阅读全文

posted @ 2012-05-08 10:52 JerryLead 阅读(55851) 评论(44) 推荐(36)

友情序言 to 《Learning Spark: Lightning-fast big data analytics》

摘要：友情序言获悉Spark最近要出书了，突然有很多感慨，心想不如写点东西出来，算是友情支持，也算是个人总结。观点尽量中立，内容尽量煽情。本着牛哥“站在巨人的肩膀上”的理论，在捧Spark之前，要先捧一下她的前辈们。大数据系统中最核心的莫过于分布式处理框架，因为框架负责job执行的方方面面，如job分解、task调度与执行、错误容忍、数据流等等。较早（04年发表）也是最重要的贡献是Google的MapReduce框架，她将函数式编程思想引入到分布式数据处理中，仅仅用两个函数（map和reduce）就解决了一大类的大数据批处理问题，用户也再也不用担心分布式带来的诸多系统层面问题。MapReduce缺点阅读全文

posted @ 2013-04-27 13:07 JerryLead 阅读(21497) 评论(4) 推荐(7)

Hadoop vs Spark性能对比

摘要：基于Spark-0.4和Hadoop-0.20.21. Kmeans数据：自己产生的三维数据，分别围绕正方形的8个顶点{0, 0, 0}, {0, 10, 0}, {0, 0, 10}, {0, 10, 10},{10, 0, 0}, {10, 0, 10}, {10, 10, 0}, {10, 10, 10}Point number189,918,082 （1亿9千万个三维点）Capacity10GBHDFS Location/user/LijieXu/Kmeans/Square-10GB.txt程序逻辑：读取HDFS上的block到内存，每个block转化为RDD，里面包含vector。然阅读全文

posted @ 2012-08-13 11:50 JerryLead 阅读(39977) 评论(11) 推荐(3)

Spark安装与学习

摘要：摘要：Spark是继Hadoop之后的新一代大数据分布式处理框架，由UC Berkeley的Matei Zaharia主导开发。我只能说是神一样的人物造就的神器，详情请猛击http://www.spark-project.org/ Created 2012-05-09 Modified 2012-08-131 Scala安装当前，Spark最新版本是0.5，由于我写这篇文档时，版本还是0.4，因此本文下面的所有描述基于0.4版本。不过淘宝的达人已经尝试了0.5，并写了相关安装文档在此http://rdc.taobao.com/team/jm/archives/tag/spark。~~~~~. 阅读全文

posted @ 2012-08-13 11:36 JerryLead 阅读(186417) 评论(11) 推荐(12)

偏最小二乘法回归（Partial Least Squares Regression）

摘要： [pdf版本]偏最小二乘法回归.pdf1. 问题这节我们请出最后的有关成分分析和回归的神器PLSR。PLSR感觉已经把成分分析和回归发挥到极致了，下面主要介绍其思想而非完整的教程。让我们回顾一下最早的Linear Regression的缺点：如果样例数m相比特征数n少（m<n）或者特征间线性相关时，由于（n*n矩阵）的秩小于特征个数（即不可逆）。因此最小二乘法就会失效。为了解决这个问题，我们会使用PCA对样本X（m*n矩阵）进行降维，不妨称降维后的X为X’（m*r矩阵，一般加了’就表示转置，这里临时改变下），那么X’的秩为r（列不相关）。2. PCA Revisited 所谓磨刀不误阅读全文

posted @ 2011-08-21 21:32 JerryLead 阅读(111720) 评论(5) 推荐(15)

典型关联分析（Canonical Correlation Analysis）

摘要： [pdf版本] 典型相关分析.pdf1. 问题在线性回归中，我们使用直线来拟合样本点，寻找n维特征向量X和输出结果（或者叫做label）Y之间的线性关系。其中，。然而当Y也是多维时，或者说Y也有多个特征时，我们希望分析出X和Y的关系。当然我们仍然可以使用回归的方法来分析，做法如下：假设，，那么可以建立等式Y=AX如下其中，形式和线性回归一样，需要训练m次得到m个。这样做的一个缺点是，Y中的每个特征都与X的所有特征关联，Y中的特征之间没有什么联系。我们想换一种思路来看这个问题，如果将X和Y都看成整体，考察这两个整体之间的关系。我们将整体表示成X和Y各自特征间的线性组合，也就是考察和. 阅读全文

posted @ 2011-06-20 20:17 JerryLead 阅读(69842) 评论(12) 推荐(8)

增强学习（Reinforcement Learning and Control）

摘要： [pdf版本]增强学习.pdf 在之前的讨论中，我们总是给定一个样本x，然后给或者不给label y。之后对样本进行拟合、分类、聚类或者降维等操作。然而对于很多序列决策或者控制问题，很难有这么规则的样本。比如，四足机器人的控制问题，刚开始都不知道应该让其动那条腿，在移动过程中，也不知道怎么让机器人自动找到合适的前进方向。另外如要设计一个下象棋的AI，每走一步实际上也是一个决策过程，虽然对于简单的棋有A*的启发式方法，但在局势复杂时，仍然要让机器向后面多考虑几步后才能决定走哪一步比较好，因此需要更好的决策方法。对于这种控制决策问题，有这么一种解决思路。我们设计一个回报函数（reward fu 阅读全文

posted @ 2011-05-13 11:19 JerryLead 阅读(82076) 评论(5) 推荐(8)

因子分析（Factor Analysis）

摘要：【pdf版本】因子分析1 问题之前我们考虑的训练数据中样例的个数m都远远大于其特征个数n，这样不管是进行回归、聚类等都没有太大的问题。然而当训练样例个数m太小，甚至m<<n的时候，使用梯度下降法进行回归时，如果初值不同，得到的参数结果会有很大偏差（因为方程数小于参数个数）。另外，如果使用多元高斯分布(Multivariate Gaussian distribution)对数据进行拟合时，也会有问题。让我们来演算一下，看看会有什么问题：多元高斯分布的参数估计公式如下：分别是求mean和协方差的公式，表示样例，共有m个，每个样例n个特征，因此是n维向量，是n*n协方差矩阵。当m& 阅读全文

posted @ 2011-05-11 15:59 JerryLead 阅读(69494) 评论(17) 推荐(8)

线性判别分析（Linear Discriminant Analysis）（二）

摘要： 4. 实例将3维空间上的球体样本点投影到二维上，W1相比W2能够获得更好的分离效果。 PCA与LDA的降维对比： PCA选择样本点投影具有最大方差的方向，LDA选择分类性能最好的方向。 LDA既然叫做线性判别分析，应该具有一定的预测功能，比如新来一个样例x，如何确定其类别？拿二值分来来说，我们可以将其投影到直线上，得到y，然后看看y是否在超过某个阈值y0，超过是某一类，否则是另一类。而怎么寻找这个y0呢？看根据中心极限定理，独立同分布的随机变量和符合高斯分布，然后利用极大似然估计求然后用决策理论里的公式来寻找最佳的y0，详情请参阅PRML。这是一种可行但比较繁琐的选取方法，可以看第阅读全文

posted @ 2011-04-21 23:31 JerryLead 阅读(38049) 评论(1) 推荐(6)

公告

导航