大数据技术领域发展与Spark的性能优化
摘要:一、大数据技术领域发展方向 随着AI时代的到来,大数据技术领域逐渐退居二线,再也没有了前些年的重视程度。博主近期结合从业多年经验,对大数据技术领域的技术演进路线做下梳理。 当前大数据领域发展已经进入深水区,随着各种成熟大数据框架的应用普及,难点已经从存不下、算不出,变为了如何高质量、高效计算数据并增
阅读全文
posted @
2026-01-17 23:59
淡墨痕
阅读(541)
推荐(0)
Spark记录(五):Dataset.count()方法源码剖析-下篇
摘要:书接上回(https://www.cnblogs.com/zzq6032010/p/16323297.html) Dataset.count()方法为: 1 def count(): Long = withAction("count", groupBy().count().queryExecutio
阅读全文
posted @
2022-09-04 17:00
淡墨痕
阅读(372)
推荐(0)
Spark记录(四):Dataset.count()方法源码剖析
摘要:因最近工作中涉及较多的Spark相关功能,所以趁周末闲来无事,研读一下Dataset的count方法。Spark版本3.2.0 1、方法入口: def count(): Long = withAction("count", groupBy().count().queryExecution) { pl
阅读全文
posted @
2022-05-30 00:06
淡墨痕
阅读(891)
推荐(0)
Spark记录(三):详细拆解Spark代码执行流程
摘要:在该系列的上一篇文章中,较为详细的描述了Spark程序的生命周期,这一篇我们以一段Spark代码为例,来详细拆解一下Spark程序的执行过程。 一、示例代码: val ss = SparkSession.builder().appName("localhost").master("local[*]"
阅读全文
posted @
2021-11-07 15:56
淡墨痕
阅读(1766)
推荐(0)
Spark记录(二):Spark程序的生命周期
摘要:本文以Spark执行模式中最常见的集群模式为例,详细的描述一下Spark程序的生命周期(YARN作为集群管理器)。 1、集群节点初始化 集群刚初始化的时候,或者之前的Spark任务完成之后,此时集群中的节点都处于空闲状态,每个服务器(节点)上,只有YARN的进程在运行(环境进程不在此考虑范围内),集
阅读全文
posted @
2021-11-07 14:29
淡墨痕
阅读(666)
推荐(0)
Spark记录(一):Spark全景概述
摘要:一、Spark是什么 Spark是一个开源的大数据处理引擎。 二、Spark的主要组件如下图所示: 三、Spark运行时架构 Spark共有三种运行模式:本地模式、集群模式、客户端模式。 生产环境基本都是用集群模式。集群模式需要用到集群管理器,三个核心的集群管理器为:Spark自带的独立集群管理器、
阅读全文
posted @
2021-11-06 23:17
淡墨痕
阅读(246)
推荐(0)