随笔分类 -  Spark-Scala

摘要: Yarn cluster 和 Yarn client比较 Yarn client: 用于测试,Driver在本地可以看到所有的log方便调试。但是和yarn通信流量过大。 Yarn cluster:用于生产环境,查看log不方便。 阅读全文
posted @ 2019-08-25 22:06 会走的树 阅读(245) 评论(0) 推荐(0) 编辑
摘要:将窄依赖关系的尽量划分到一个Stage里面,来实现流水线计算提高效率。 阅读全文
posted @ 2019-08-25 22:05 会走的树 阅读(681) 评论(0) 推荐(0) 编辑
摘要:Transformation算子只会记录RDD的转换过程但不会真正执行,只有遇到Action算子才会从头依次执行前面的算子。 阅读全文
posted @ 2019-08-25 22:03 会走的树 阅读(769) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2019-08-25 22:02 会走的树 阅读(116) 评论(0) 推荐(0) 编辑
摘要:窄依赖可以进行fork join流水线优化,宽依赖不行。 划分阶段也是根据宽依赖和窄依赖划分。 阅读全文
posted @ 2019-08-25 22:01 会走的树 阅读(119) 评论(0) 推荐(0) 编辑
摘要: IDEA创建WordCount Maven项目 创建WordCount源文件 words.text 内容 WordCount源码 说明参考: https://www.cnblogs.com/studyNotesSL/p/11367751.html pom.xml源码 选择 Enables Aut 阅读全文
posted @ 2019-08-19 14:56 会走的树 阅读(875) 评论(0) 推荐(0) 编辑
摘要:words.txt 数据 阅读全文
posted @ 2019-08-17 10:43 会走的树 阅读(222) 评论(0) 推荐(0) 编辑
摘要:准备代码 使用SQL语句查询 查看数据 加载数据到数组 获取指定字段的统计信息 获取n行数据 条件查询 去除重复数据 同字段数据组合(unionAll) 同字段数据行组合(join) 阅读全文
posted @ 2019-08-17 10:39 会走的树 阅读(1115) 评论(0) 推荐(0) 编辑
摘要:头代码 RDD创建 保存RDD数据 RDD数据类型转换 RDD逻辑操作方法 去重 分组 累积运算(reduce) 筛选RDD元素 拆分RDD的Map 统计个数 选取元素 排序 RDD合并 RDD分区 分区运算 阅读全文
posted @ 2019-08-14 15:49 会走的树 阅读(240) 评论(0) 推荐(0) 编辑
摘要:[TOC] Spark Dataframe创建 读取json文件 jsData.js 数据 Spark Dataframe创建 Rdd转Dataframe 数据 Spark Dataframe创建 加载到SparkSession Spark DataFrame数据读取和保存 Spark Datafr 阅读全文
posted @ 2019-08-12 17:36 会走的树 阅读(262) 评论(0) 推荐(0) 编辑
摘要:[TOC] 监听文件 定时文件监听 监听文件 结构化数据流 数据 监听端口数据 统计包括历史数据 监听端口结构化数据 监听RDD队列数据 import org.apache.spark.SparkConf import org.apache.spark.rdd.RDD import org.apac 阅读全文
posted @ 2019-08-12 17:30 会走的树 阅读(250) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示