Spark - 随笔分类 - kris12

Spark UI

摘要：倍率与中签率分析”案例用到的资源如下所示：接下来是代码，我们一步步地实现了“倍率与中签率分析”的计算逻辑 import org.apache.spark.sql.DataFrame val rootPath: String = _ // 申请者数据 val hdfs_path_apply: Str 阅读全文

posted @ 2023-09-20 19:06 kris12 阅读(160) 评论(0) 推荐(0) 编辑

Spark调优

摘要：1. Explain查看执行计划 Spark 3.0 大版本发布，Spark SQL 的优化占比将近 50%。Spark SQL 取代 Spark Core，成为新一代的引擎内核，所有其他子框架如 Mllib、Streaming 和 Graph，都可以共享 Spark SQL 的性能优化，都能从 S 阅读全文

posted @ 2022-01-30 23:16 kris12 阅读(922) 评论(0) 推荐(0) 编辑

Spark| 软件性能优化| spark性能优化案例

摘要：1. 软件性能优化如何进行软件性能优化，系统地了解软件性能优化。所谓性能优化具体要做些什么呢？关于软件性能优化，有个著名的论断。 1. 你不能优化一个没有经过性能测试的软件。 2. 你不能优化一个你不了解其架构设计的软件。如果没有性能测试，那么你就不会知道当前软件的主要性能指标有哪些。通常来说阅读全文

posted @ 2021-04-09 14:35 kris12 阅读(434) 评论(0) 推荐(0) 编辑

摘要：1. 调度策略 TaskScheduler会先把DAGScheduler给过来的TaskSet封装成TaskSetManager扔到任务队列里，然后再从任务队列里按照一定的规则把它们取出来在SchedulerBackend给过来的Executor上运行。这个调度过程实际上还是比较粗粒度的，是面向Ta 阅读全文

posted @ 2019-05-07 17:58 kris12 阅读(673) 评论(0) 推荐(0) 编辑

Spark调优数据倾斜

摘要：1. Spark数据倾斜问题 Spark中的数据倾斜问题主要指shuffle过程中出现的数据倾斜问题，是由于不同的key对应的数据量不同导致的不同task所处理的数据量不同的问题。例如，reduce点一共要处理100万条数据，第一个和第二个task分别被分配到了1万条数据，计算5分钟内完成，第三个阅读全文

posted @ 2019-04-26 13:28 kris12 阅读(1542) 评论(0) 推荐(0) 编辑

Spark 常规性能调优

摘要：1. 常规性能调优一：最优资源配置 Spark性能调优的第一步，就是为任务分配更多的资源，在一定范围内，增加资源的分配与性能的提升是成正比的，实现了最优的资源配置后，在此基础上再考虑进行后面论述的性能调优策略。 --driver-memory 配置Driver内存（影响不大）内存大小影响不大资阅读全文

posted @ 2019-04-26 08:30 kris12 阅读(396) 评论(0) 推荐(0) 编辑

Spark实战

摘要：实战数据导入Hive中全量：拉链增量：用户、商品表数据量大时用拉链表动作表增量城市信息全量需求一：获取点击、下单和支付数量排名前 10 的品类 ①使用累加器： click_category_id，个数 order_category_ids，个数 pay_category_ids，个数阅读全文

posted @ 2019-04-23 01:44 kris12 阅读(694) 评论(0) 推荐(0) 编辑

Spark源码解读| 架构| 提交流程| 任务调度

摘要：一些名词概念以yarn-cluster模式为例源码分析作业提交流程 Spark-submit提交源码解析执行spark-submit实际上执行的是$SPARK_HOME/spark-class -->执行一个java类 java org.apache.spark.launcher.Main调它的阅读全文

posted @ 2019-04-18 23:40 kris12 阅读(1018) 评论(0) 推荐(0) 编辑

Spark |05 SparkStreaming

摘要：从数据处理的方式角度：流式（Streaming）数据处理；批量（batch）数据处理；从数据处理延迟的长短：实时数据处理：毫秒级别；（流式处理！= 实时数据处理）离线数据处理：小时 or 天级别 1. Spark Streaming Spark Streaming用于流式数据的处理。阅读全文

posted @ 2019-04-14 17:26 kris12 阅读(617) 评论(0) 推荐(0) 编辑

Spark |04 SparkSQL

摘要：1. Hive and SparkSQL sparkSQL的前身是Shark。 Hive是早期唯一运行在Hadoop上的SQL-on-Hadoop工具。但是MapReduce计算过程中大量的中间磁盘落地过程消耗了大量的I/O，降低的运行效率，为了提高SQL-on-Hadoop的效率，大量的SQL- 阅读全文

posted @ 2019-04-11 14:04 kris12 阅读(1023) 评论(0) 推荐(0) 编辑

摘要：Spark中三大数据结构： RDD；广播变量: 分布式只读共享变量；累加器：分布式只写共享变量；线程和进程之间 1. RDD 序列化 1) 闭包检查从计算的角度, 算子以外的代码都是在 Driver 端执行, 算子里面的代码都是在 Executor 端执行。那么在 scala 的函数式编程中阅读全文

posted @ 2019-04-10 08:45 kris12 阅读(759) 评论(0) 推荐(0) 编辑

Spark |01 hadoop与spark的区别| 概述| 安装部署| 运行模式

摘要：1.Spark and Hadoop 在 Spark 出现之前，我们并没有对 MapReduce 的执行速度不满，我们觉得大数据嘛、分布式计算嘛，这样的速度也还可以啦。至于编程复杂度也是一样，一方面 Hive、Mahout 这些工具将常用的 MapReduce 编程封装起来了；另一方面，MapRe 阅读全文

posted @ 2019-04-05 22:48 kris12 阅读(4530) 评论(0) 推荐(0) 编辑

Spark |02 SparkCore| 算子

摘要：Spark 核心编程 Spark计算框架为了能够进行高并发和高吞吐的数据处理，封装了三大数据结构，用于处理不同的应用场景。三大数据结构分别是： ➢ RDD : 弹性分布式数据集 ➢ 累加器：分布式共享只写变量 ➢ 广播变量：分布式共享只读变量 RDD（Resilient Distributed Da 阅读全文

posted @ 2019-04-05 13:45 kris12 阅读(732) 评论(0) 推荐(1) 编辑

kris12

Self-discipline gives me freedom.

随笔分类 - 大数据技术栈 / Spark

公告