08 2012 档案

Hadoop vs Spark性能对比
摘要:基于Spark-0.4和Hadoop-0.20.21. Kmeans数据:自己产生的三维数据,分别围绕正方形的8个顶点{0, 0, 0}, {0, 10, 0}, {0, 0, 10}, {0, 10, 10},{10, 0, 0}, {10, 0, 10}, {10, 10, 0}, {10, 10, 10}Point number189,918,082 (1亿9千万个三维点)Capacity10GBHDFS Location/user/LijieXu/Kmeans/Square-10GB.txt程序逻辑:读取HDFS上的block到内存,每个block转化为RDD,里面包含vector。然 阅读全文

posted @ 2012-08-13 11:50 JerryLead 阅读(39914) 评论(11) 推荐(3) 编辑

Spark安装与学习
摘要:摘要:Spark是继Hadoop之后的新一代大数据分布式处理框架,由UC Berkeley的Matei Zaharia主导开发。我只能说是神一样的人物造就的神器,详情请猛击http://www.spark-project.org/ Created 2012-05-09 Modified 2012-08-131 Scala安装 当前,Spark最新版本是0.5,由于我写这篇文档时,版本还是0.4,因此本文下面的所有描述基于0.4版本。不过淘宝的达人已经尝试了0.5,并写了相关安装文档在此http://rdc.taobao.com/team/jm/archives/tag/spark。~~~~~. 阅读全文

posted @ 2012-08-13 11:36 JerryLead 阅读(186154) 评论(11) 推荐(12) 编辑

导航

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

统计

点击右上角即可分享
微信分享提示