2018 年 11月 1 日随笔档案 - stone1234567890

2018年11月1日

摘要：一、RDD变换 1.返回执行新的rdd的指针，在rdd之间创建依赖关系。每个rdd都有一个计算函数和指向父rdd的指针 Spark是惰性的，因此除非调用某个转换或动作，否则不会执行任何操作，否则将触发工作创建和执行。 2.map()是对每个元素进行变换，应用变换函数，返回的是一个新的分布式数据集，m 阅读全文

posted @ 2018-11-01 22:41 stone1234567890 阅读(417) 评论(0) 推荐(0) 编辑

spark复习笔记(5):API分析

摘要： 0.spark是基于hadoop的mr模型，扩展了MR，高效实用MR模型，内存型集群计算，提高了app处理速度。 1.特点：(1)在内存中存储中间结果 (2)支持多种语言：java scala python (3)内置了80多种算子 2.sparkCore模块(通用执行引擎) (1)通用的执行引擎，阅读全文

posted @ 2018-11-01 19:25 stone1234567890 阅读(251) 评论(0) 推荐(0) 编辑

spark复习笔记(4):spark脚本分析

摘要： 1.[start-all.sh] 2.[start-master.sh] 阅读全文

posted @ 2018-11-01 14:48 stone1234567890 阅读(165) 评论(0) 推荐(0) 编辑

maven 打包Scala代码到jar包

摘要： idea的pom.xml文件配置阅读全文

posted @ 2018-11-01 13:35 stone1234567890 阅读(6491) 评论(0) 推荐(0) 编辑

spark复习笔记(3)

摘要：在windows上实现wordcount单词统计一、编写scala程序，引入spark类库，完成wordcount 1.sparkcontextAPI sparkcontext是spark功能的主要入口点，代表着到spark集群的连接，可用于在这些集群上创建RDD(弹性分布式数据集)，累加器和广播阅读全文

posted @ 2018-11-01 10:38 stone1234567890 阅读(250) 评论(0) 推荐(0) 编辑

大数据开发程序猿

做有态度的码农，欢迎各位朋友光临，本博客长期更新，需要学习讨论找工作面试的同学可以加qq群：694117549，交个朋友相互交流。

公告