2013 年 9月 16 日随笔档案 - vincent_hv

2013年9月16日

摘要：原文地址：http://tech.uc.cn/?p=2116概述什么是SparkSpark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架，Spark基于map reduce算法实现的分布式计算，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间输出和结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法。其架构如下图所示：Spark与Hadoop的对比Spark的中间数据放到内存中，对于迭代运算效率更高。Spark更适合于阅读全文

posted @ 2013-09-16 14:36 vincent_hv 阅读(1004) 评论(0) 推荐(1) 编辑

vincent_hv

Talk is cheap, show the code!

公告