摘要: Spark的核心RDD(Resilient Distributed Datasets弹性分布式数据集) 铺垫 主角 首先我们来思考一个问题吧:Spark的计算模型是如何做到并行的呢?如果你有一箱香蕉,让三个人拿回家吃完(好吧,我承认我爱吃香蕉,哈哈),如果不拆箱子就会很麻烦对吧,哈哈,一个箱子嘛,当 阅读全文
posted @ 2017-10-17 14:44 fcyh 阅读(2876) 评论(0) 推荐(1) 编辑
摘要: Hadoop与Spark之间的比较 Hadoop框架的主要模块包括如下: Hadoop Common Hadoop分布式文件系统(HDFS) Hadoop YARN Hadoop MapReduce 虽然上述四个模块构成了Hadoop的核心,不过还有其他几个模块。这些模块包括:Ambari、Avro 阅读全文
posted @ 2017-10-17 14:37 fcyh 阅读(24549) 评论(0) 推荐(2) 编辑