2019 年 4月 5 日随笔档案 - kris12

2019年4月5日

Spark |01 hadoop与spark的区别| 概述| 安装部署| 运行模式

摘要： 1.Spark and Hadoop 在 Spark 出现之前，我们并没有对 MapReduce 的执行速度不满，我们觉得大数据嘛、分布式计算嘛，这样的速度也还可以啦。至于编程复杂度也是一样，一方面 Hive、Mahout 这些工具将常用的 MapReduce 编程封装起来了；另一方面，MapRe 阅读全文

posted @ 2019-04-05 22:48 kris12 阅读(4530) 评论(0) 推荐(0) 编辑

Spark |02 SparkCore| 算子

摘要： Spark 核心编程 Spark计算框架为了能够进行高并发和高吞吐的数据处理，封装了三大数据结构，用于处理不同的应用场景。三大数据结构分别是： ➢ RDD : 弹性分布式数据集 ➢ 累加器：分布式共享只写变量 ➢ 广播变量：分布式共享只读变量 RDD（Resilient Distributed Da 阅读全文

posted @ 2019-04-05 13:45 kris12 阅读(732) 评论(0) 推荐(1) 编辑

kris12

Self-discipline gives me freedom.

公告