摘要: 一、RDD变换 1.返回执行新的rdd的指针,在rdd之间创建依赖关系。每个rdd都有一个计算函数和指向父rdd的指针 Spark是惰性的,因此除非调用某个转换或动作,否则不会执行任何操作,否则将触发工作创建和执行。 2.map()是对每个元素进行变换,应用变换函数,返回的是一个新的分布式数据集,m 阅读全文
posted @ 2018-11-01 22:41 stone1234567890 阅读(414) 评论(0) 推荐(0) 编辑
摘要: 0.spark是基于hadoop的mr模型,扩展了MR,高效实用MR模型,内存型集群计算,提高了app处理速度。 1.特点:(1)在内存中存储中间结果 (2)支持多种语言:java scala python (3)内置了80多种算子 2.sparkCore模块(通用执行引擎) (1)通用的执行引擎, 阅读全文
posted @ 2018-11-01 19:25 stone1234567890 阅读(247) 评论(0) 推荐(0) 编辑
摘要: 1.[start-all.sh] 2.[start-master.sh] 阅读全文
posted @ 2018-11-01 14:48 stone1234567890 阅读(165) 评论(0) 推荐(0) 编辑
摘要: idea的pom.xml文件配置 阅读全文
posted @ 2018-11-01 13:35 stone1234567890 阅读(6483) 评论(0) 推荐(0) 编辑
摘要: 在windows上实现wordcount单词统计 一、编写scala程序,引入spark类库,完成wordcount 1.sparkcontextAPI sparkcontext是spark功能的主要入口点,代表着到spark集群的连接,可用于在这些集群上创建RDD(弹性分布式数据集),累加器和广播 阅读全文
posted @ 2018-11-01 10:38 stone1234567890 阅读(248) 评论(0) 推荐(0) 编辑