Fork me on GitHub
摘要: 1.Spark and Hadoop 在 Spark 出现之前,我们并没有对 MapReduce 的执行速度不满,我们觉得大数据嘛、分布式计算嘛,这样的速度也还可以啦。至于编程复杂度也是一样,一方面 Hive、Mahout 这些 工具将常用的 MapReduce 编程封装起来了;另一方面,MapRe 阅读全文
posted @ 2019-04-05 22:48 kris12 阅读(4530) 评论(0) 推荐(0) 编辑
摘要: Spark 核心编程 Spark计算框架为了能够进行高并发和高吞吐的数据处理,封装了三大数据结构,用于处理不同的应用场景。三大数据结构分别是: ➢ RDD : 弹性分布式数据集 ➢ 累加器:分布式共享只写变量 ➢ 广播变量:分布式共享只读变量 RDD(Resilient Distributed Da 阅读全文
posted @ 2019-04-05 13:45 kris12 阅读(732) 评论(0) 推荐(1) 编辑
levels of contents