随笔分类 - Spark-Scala
摘要: Yarn cluster 和 Yarn client比较 Yarn client: 用于测试,Driver在本地可以看到所有的log方便调试。但是和yarn通信流量过大。 Yarn cluster:用于生产环境,查看log不方便。
阅读全文
摘要:将窄依赖关系的尽量划分到一个Stage里面,来实现流水线计算提高效率。
阅读全文
摘要:Transformation算子只会记录RDD的转换过程但不会真正执行,只有遇到Action算子才会从头依次执行前面的算子。
阅读全文
摘要:窄依赖可以进行fork join流水线优化,宽依赖不行。 划分阶段也是根据宽依赖和窄依赖划分。
阅读全文
摘要: IDEA创建WordCount Maven项目 创建WordCount源文件 words.text 内容 WordCount源码 说明参考: https://www.cnblogs.com/studyNotesSL/p/11367751.html pom.xml源码 选择 Enables Aut
阅读全文
摘要:准备代码 使用SQL语句查询 查看数据 加载数据到数组 获取指定字段的统计信息 获取n行数据 条件查询 去除重复数据 同字段数据组合(unionAll) 同字段数据行组合(join)
阅读全文
摘要:头代码 RDD创建 保存RDD数据 RDD数据类型转换 RDD逻辑操作方法 去重 分组 累积运算(reduce) 筛选RDD元素 拆分RDD的Map 统计个数 选取元素 排序 RDD合并 RDD分区 分区运算
阅读全文
摘要:[TOC] Spark Dataframe创建 读取json文件 jsData.js 数据 Spark Dataframe创建 Rdd转Dataframe 数据 Spark Dataframe创建 加载到SparkSession Spark DataFrame数据读取和保存 Spark Datafr
阅读全文
摘要:[TOC] 监听文件 定时文件监听 监听文件 结构化数据流 数据 监听端口数据 统计包括历史数据 监听端口结构化数据 监听RDD队列数据 import org.apache.spark.SparkConf import org.apache.spark.rdd.RDD import org.apac
阅读全文