随笔 - 82  文章 - 0  评论 - 51  阅读 - 16万

随笔分类 -  大数据

Spark记录(五):Dataset.count()方法源码剖析-下篇
摘要:书接上回(https://www.cnblogs.com/zzq6032010/p/16323297.html) Dataset.count()方法为: 1 def count(): Long = withAction("count", groupBy().count().queryExecutio 阅读全文
posted @ 2022-09-04 17:00 淡墨痕 阅读(311) 评论(0) 推荐(0) 编辑
Spark记录(四):Dataset.count()方法源码剖析
摘要:因最近工作中涉及较多的Spark相关功能,所以趁周末闲来无事,研读一下Dataset的count方法。Spark版本3.2.0 1、方法入口: def count(): Long = withAction("count", groupBy().count().queryExecution) { pl 阅读全文
posted @ 2022-05-30 00:06 淡墨痕 阅读(787) 评论(0) 推荐(0) 编辑
Spark记录(三):详细拆解Spark代码执行流程
摘要:在该系列的上一篇文章中,较为详细的描述了Spark程序的生命周期,这一篇我们以一段Spark代码为例,来详细拆解一下Spark程序的执行过程。 一、示例代码: val ss = SparkSession.builder().appName("localhost").master("local[*]" 阅读全文
posted @ 2021-11-07 15:56 淡墨痕 阅读(1542) 评论(0) 推荐(0) 编辑
Spark记录(二):Spark程序的生命周期
摘要:本文以Spark执行模式中最常见的集群模式为例,详细的描述一下Spark程序的生命周期(YARN作为集群管理器)。 1、集群节点初始化 集群刚初始化的时候,或者之前的Spark任务完成之后,此时集群中的节点都处于空闲状态,每个服务器(节点)上,只有YARN的进程在运行(环境进程不在此考虑范围内),集 阅读全文
posted @ 2021-11-07 14:29 淡墨痕 阅读(556) 评论(0) 推荐(0) 编辑
Spark记录(一):Spark全景概述
摘要:一、Spark是什么 Spark是一个开源的大数据处理引擎。 二、Spark的主要组件如下图所示: 三、Spark运行时架构 Spark共有三种运行模式:本地模式、集群模式、客户端模式。 生产环境基本都是用集群模式。集群模式需要用到集群管理器,三个核心的集群管理器为:Spark自带的独立集群管理器、 阅读全文
posted @ 2021-11-06 23:17 淡墨痕 阅读(210) 评论(0) 推荐(0) 编辑

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

点击右上角即可分享
微信分享提示