大数据 - 随笔分类 - 淡墨痕

大数据技术领域发展与Spark的性能优化

摘要：一、大数据技术领域发展方向随着AI时代的到来，大数据技术领域逐渐退居二线，再也没有了前些年的重视程度。博主近期结合从业多年经验，对大数据技术领域的技术演进路线做下梳理。当前大数据领域发展已经进入深水区，随着各种成熟大数据框架的应用普及，难点已经从存不下、算不出，变为了如何高质量、高效计算数据并增阅读全文

posted @ 2026-01-17 23:59 淡墨痕阅读(541) 评论(0) 推荐(0)

Spark记录（五）：Dataset.count()方法源码剖析-下篇

摘要：书接上回（https://www.cnblogs.com/zzq6032010/p/16323297.html） Dataset.count()方法为： 1 def count(): Long = withAction("count", groupBy().count().queryExecutio 阅读全文

posted @ 2022-09-04 17:00 淡墨痕阅读(372) 评论(0) 推荐(0)

Spark记录（四）：Dataset.count()方法源码剖析

摘要：因最近工作中涉及较多的Spark相关功能，所以趁周末闲来无事，研读一下Dataset的count方法。Spark版本3.2.0 1、方法入口： def count(): Long = withAction("count", groupBy().count().queryExecution) { pl 阅读全文

posted @ 2022-05-30 00:06 淡墨痕阅读(891) 评论(0) 推荐(0)

Spark记录（三）：详细拆解Spark代码执行流程

摘要：在该系列的上一篇文章中，较为详细的描述了Spark程序的生命周期，这一篇我们以一段Spark代码为例，来详细拆解一下Spark程序的执行过程。一、示例代码： val ss = SparkSession.builder().appName("localhost").master("local[*]" 阅读全文

posted @ 2021-11-07 15:56 淡墨痕阅读(1766) 评论(0) 推荐(0)

Spark记录（二）：Spark程序的生命周期

摘要：本文以Spark执行模式中最常见的集群模式为例，详细的描述一下Spark程序的生命周期（YARN作为集群管理器）。 1、集群节点初始化集群刚初始化的时候，或者之前的Spark任务完成之后，此时集群中的节点都处于空闲状态，每个服务器（节点）上，只有YARN的进程在运行（环境进程不在此考虑范围内），集阅读全文

posted @ 2021-11-07 14:29 淡墨痕阅读(666) 评论(0) 推荐(0)

Spark记录（一）：Spark全景概述

摘要：一、Spark是什么 Spark是一个开源的大数据处理引擎。二、Spark的主要组件如下图所示：三、Spark运行时架构 Spark共有三种运行模式：本地模式、集群模式、客户端模式。生产环境基本都是用集群模式。集群模式需要用到集群管理器，三个核心的集群管理器为：Spark自带的独立集群管理器、阅读全文

posted @ 2021-11-06 23:17 淡墨痕阅读(246) 评论(0) 推荐(0)

随笔分类 - 大数据