随笔档案「2012年8月」 - JerryLead

08 2012 档案

Hadoop vs Spark性能对比

摘要：基于Spark-0.4和Hadoop-0.20.21. Kmeans数据：自己产生的三维数据，分别围绕正方形的8个顶点{0, 0, 0}, {0, 10, 0}, {0, 0, 10}, {0, 10, 10},{10, 0, 0}, {10, 0, 10}, {10, 10, 0}, {10, 10, 10}Point number189,918,082 （1亿9千万个三维点）Capacity10GBHDFS Location/user/LijieXu/Kmeans/Square-10GB.txt程序逻辑：读取HDFS上的block到内存，每个block转化为RDD，里面包含vector。然阅读全文

posted @ 2012-08-13 11:50 JerryLead 阅读(39982) 评论(11) 推荐(3)

Spark安装与学习

摘要：摘要：Spark是继Hadoop之后的新一代大数据分布式处理框架，由UC Berkeley的Matei Zaharia主导开发。我只能说是神一样的人物造就的神器，详情请猛击http://www.spark-project.org/ Created 2012-05-09 Modified 2012-08-131 Scala安装当前，Spark最新版本是0.5，由于我写这篇文档时，版本还是0.4，因此本文下面的所有描述基于0.4版本。不过淘宝的达人已经尝试了0.5，并写了相关安装文档在此http://rdc.taobao.com/team/jm/archives/tag/spark。~~~~~. 阅读全文

posted @ 2012-08-13 11:36 JerryLead 阅读(186429) 评论(11) 推荐(12)

JerryLead

08 2012 档案

Hadoop vs Spark性能对比

Spark安装与学习

公告

导航