摘要: 首先,Spark是MapReduce-like(架构上和多数分布式计算框架类似),Spark有分配任务的主节点(Driver)和执行计算的工作节点(Worker)。 其次,Low-latency基本上应该是源于Worker进程较长的生命周期,可以在一个Job过程中长驻内存执行 阅读全文
posted @ 2015-01-04 15:27 sunbylm 阅读(141) 评论(0) 推荐(0) 编辑
摘要: Spark是UC Berkeley AMP lab开源的类Hadoop MapReduce的通用的并行,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘和机器... 阅读全文
posted @ 2015-01-04 15:02 sunbylm 阅读(217) 评论(0) 推荐(0) 编辑