随笔分类 - Spark
摘要:http://www.jasongj.com/spark/skew/
阅读全文
摘要:1、Spark SQL / Catalyst 内部原理 与 RBO http://www.jasongj.com/spark/rbo/ 2、Spark SQL 性能优化再进一步 CBO 基于代价的优化 http://www.jasongj.com/spark/cbo/
阅读全文
摘要:数据库系统发展历史# 数据库系统产生于20世纪60年代中期,至今有近50多年的历史,其发展经历了三代演变,造就了四位图灵奖得主,发展成为一门计算机基础学科,带动了一个巨大的软件产业。 数据库系统是操作系统之上最重要的基础设施之一,被称为软件产业的常青树,特别是它所支撑起来的大数据、人工智能应用,更是
阅读全文
摘要:https://blog.csdn.net/q322625/article/details/102803320
阅读全文
摘要:1、内存和磁盘使用方面 Spark vs MapReduce不等于内存 vs 磁盘,Spark和MapReduce的计算都发生在内存中,区别在于: MapReduce需要将每次计算的结果写入磁盘,然后再从磁盘读取数据,从而导致了频繁的磁盘IO。 Spark通常不需要将计算的结果写入磁盘,可以在内存中
阅读全文
摘要:https://zhuanlan.zhihu.com/p/67068559
阅读全文
摘要:https://www.iteblog.com/archives/9870.html
阅读全文
摘要:一、Adaptive Query Execution 自适应查询 https://blog.51cto.com/u_12865/7338853 二、Dynamic Partion Pruning 动态裁剪分区 Apache Spark 3.0 动态分区裁剪(Dynamic Partition Pru
阅读全文
摘要:功能上,MR的shuffle和Spark的shuffle是没啥区别的,都是对Map端的数据进行分区,要么聚合排序,要么不聚合排序,然后Reduce端或者下一个调度阶段进行拉取数据,完成map端到reduce端的数据传输功能。 方案上,有很大的区别,MR的shuffle是基于合并排序的思想,在数据进入
阅读全文
摘要:在Apache Spark中,Executor的资源分配可以是动态的,而不是写死的。Apache Spark提供了一种称为动态资源分配(Dynamic Allocation)的机制,允许根据应用程序的实际需求动态调整Executor的数量。 动态资源分配的主要思想是根据当前应用程序的工作负载来增加或
阅读全文
摘要:https://zhuanlan.zhihu.com/p/165158261 具体来说DAGScheduler的功能如下: 1.划分和创建Stage:根据RDD之间的依赖类型(窄依赖或宽依赖),为每个Job划分和创建Stage,多个Stage之间相互依赖,形成一个DAG(有向无环图)。 2.决定运行
阅读全文
摘要:在Apache Hadoop和Apache Spark等分布式计算框架中,有两个重要的概念,即Application Master(应用程序主管)和Driver(驱动程序)。它们在不同的框架中可能有一些细微的差异,下面是它们的一般定义和区别: Application Master(应用程序主管):
阅读全文
摘要:哈希(Hash)通常指的是将任意长度的输入数据映射为固定长度的输出数据的过程。这个输出通常被称为哈希值或散列值。哈希函数是执行哈希的算法。 哈希函数有以下几个特性: 确定性: 对于相同的输入,哈希函数应该始终产生相同的哈希值。 固定长度输出: 无论输入的大小是多少,哈希函数的输出长度是固定的。 高效
阅读全文
摘要:package com.manage; import java.io.IOException; import java.io.InputStream; import java.util.Properties; import org.apache.log4j.Logger; import org.ap
阅读全文
摘要:https://www.jianshu.com/p/ec7966919dbe
阅读全文
摘要:Spark 读 mysql 并行度如何设置? https://www.codeleading.com/article/37345017780/
阅读全文
摘要:目录: 一 、数据倾斜介绍与定位 二、解决方法一:聚合数据源 三、解决方法二:提高 shuffle 操作 reduce 并行度 四、解决方法三:将 reduce join 转换为 map join 五 、解决方法四:sample 采样倾斜 key 进行两次 join 六、解决方法之五:使用随机数以及
阅读全文
摘要:一、代码调优 1、避免创建重复的RDD:对于同一份数据,只应该创建一个RDD,不能创建多个RDD来代表同一份数据。 一些Spark初学者在刚开始开发Spark作业时,或者是有经验的工程师在开发RDD lineage极其冗长的Spark作业时,可能会忘了自己之前对于某一份数据已经创建过一个RDD了,从
阅读全文