Spark-Scala - 随笔分类 - 会走的树

yarn的两种提交方式原理

摘要： Yarn cluster 和 Yarn client比较 Yarn client：用于测试，Driver在本地可以看到所有的log方便调试。但是和yarn通信流量过大。 Yarn cluster：用于生产环境，查看log不方便。阅读全文

posted @ 2019-08-25 22:06 会走的树阅读(257) 评论(0) 推荐(0)

Stage划分原理

摘要：将窄依赖关系的尽量划分到一个Stage里面，来实现流水线计算提高效率。阅读全文

posted @ 2019-08-25 22:05 会走的树阅读(692) 评论(0) 推荐(0)

Spark转换和动作算子

摘要：Transformation算子只会记录RDD的转换过程但不会真正执行，只有遇到Action算子才会从头依次执行前面的算子。阅读全文

posted @ 2019-08-25 22:03 会走的树阅读(795) 评论(0) 推荐(0)

Spark运行原理

摘要：阅读全文

posted @ 2019-08-25 22:02 会走的树阅读(122) 评论(0) 推荐(0)

RDD之间的关系原理

摘要：窄依赖可以进行fork join流水线优化，宽依赖不行。划分阶段也是根据宽依赖和窄依赖划分。阅读全文

posted @ 2019-08-25 22:01 会走的树阅读(119) 评论(0) 推荐(0)

Spark_scala_Maven项目创建

摘要： IDEA创建WordCount Maven项目创建WordCount源文件 words.text 内容 WordCount源码说明参考： https://www.cnblogs.com/studyNotesSL/p/11367751.html pom.xml源码选择 Enables Aut 阅读全文

posted @ 2019-08-19 14:56 会走的树阅读(890) 评论(0) 推荐(0)

Spark-WordCount

摘要：words.txt 数据阅读全文

posted @ 2019-08-17 10:43 会走的树阅读(234) 评论(0) 推荐(0)

Spark-Dataframe操作

摘要：准备代码使用SQL语句查询查看数据加载数据到数组获取指定字段的统计信息获取n行数据条件查询去除重复数据同字段数据组合(unionAll) 同字段数据行组合(join) 阅读全文

posted @ 2019-08-17 10:39 会走的树阅读(1129) 评论(0) 推荐(0)

Spark-RDD

摘要：头代码 RDD创建保存RDD数据 RDD数据类型转换 RDD逻辑操作方法去重分组累积运算(reduce) 筛选RDD元素拆分RDD的Map 统计个数选取元素排序 RDD合并 RDD分区分区运算阅读全文

posted @ 2019-08-14 15:49 会走的树阅读(247) 评论(0) 推荐(0)

Spark-Dataframe(SQL)

摘要：[TOC] Spark Dataframe创建读取json文件 jsData.js 数据 Spark Dataframe创建 Rdd转Dataframe 数据 Spark Dataframe创建加载到SparkSession Spark DataFrame数据读取和保存 Spark Datafr 阅读全文

posted @ 2019-08-12 17:36 会走的树阅读(283) 评论(0) 推荐(0)

spark-Streaming

摘要：[TOC] 监听文件定时文件监听监听文件结构化数据流数据监听端口数据统计包括历史数据监听端口结构化数据监听RDD队列数据 import org.apache.spark.SparkConf import org.apache.spark.rdd.RDD import org.apac 阅读全文

posted @ 2019-08-12 17:30 会走的树阅读(271) 评论(0) 推荐(0)

会走的树

随笔分类 - Spark-Scala

公告