摘要: [Toc] ​ 在执行Spark的应用程序时,Spark集群会启动Driver和Executor两种JVM进程,前者为主控进程,后者负责执行具体的计算任务。由于Driver的内存管理相对简单,本文主要对Executor的内存管理进行分析,下文中的Spark内存均特指Executor的内存。 1.堆内 阅读全文
posted @ 2020-03-27 14:58 西兰花是真的菜 阅读(507) 评论(0) 推荐(0) 编辑
摘要: Shuffle的中文含义是混洗,官方定义是:一种让数据重新分布以使得某些数据被放在同一分区里的一种机制。Shuffle的过程中,存在着大量的网络消耗传输数据,会在磁盘上产生大量的中间文件,在平时的工作中了解shuffle的运行机制能帮助我们写出更优秀的代码。此篇文章从shuffle的含义开始讲起,按照spark中shuffle的几中不同运行机制进行了解析,并最终附上了一些shuffle调优的建议。 阅读全文
posted @ 2020-03-22 23:05 西兰花是真的菜 阅读(958) 评论(1) 推荐(1) 编辑
摘要: 本文将针对spark中的Driver和Executor讲起,简述了spark的运行流程,部署模式以及内部任务调度机制,希望针对spark on yarn任务执行过程进行尽可能好理解的解析 阅读全文
posted @ 2020-03-20 16:49 西兰花是真的菜 阅读(2386) 评论(1) 推荐(1) 编辑
摘要: [TOC] 前言 ​ 我们都知道scala以简洁著称,怎么简单怎么来。对于scala的简洁语法,阔以说熟悉的人爱死scala,不熟悉的人被scala折磨死。对于scala这种语言,习惯了java的同学经常听到一些新的名词,不可思议而且神神秘秘,对,没错,说的就是你——隐式转换,掖着藏着,快让我窥探一 阅读全文
posted @ 2020-03-14 10:48 西兰花是真的菜 阅读(358) 评论(1) 推荐(1) 编辑
摘要: [TOC] 前言 平时我们在使用scala的时候,对scala的函数真的是有爱有恨,任意地方定义,形式简单,恨的是变种太多了,不熟悉的时候,真是让人累觉不爱。针对scala的函数,先来看看他的基本定义形式: 这个样子不好看,写个demo: ok,都没有问题,很简单嘛,平时习惯了java,大概也能看懂 阅读全文
posted @ 2020-03-10 16:46 西兰花是真的菜 阅读(604) 评论(1) 推荐(0) 编辑
摘要: 初学scala,和java存在很多不一致,有很多奇葩的语法,在日常使用中,可能自己不会这么写,但是很多存在于源码中,看源码的时候,经常看的一脸懵逼,因此在此总结部门差异点,部分。 文件名 1. java要求文件名和公共类名必须要求一致,scala不要求。 即 关键字 1. scala 中没有publ 阅读全文
posted @ 2020-03-08 12:21 西兰花是真的菜 阅读(999) 评论(0) 推荐(0) 编辑
摘要: [Toc] zk自带命令行工具,bin目录下zkCli 脚本,linux下可通过执行 zkCli.sh 连接 命令: 远程地址可选,不填情况下连接本地服务器 zk shell基本操作 创建 zk的四种节点类型 1. 持久节点 2. 持久顺序节点 3. 临时节点 4. 临时顺序节点 1.持久节点 数据 阅读全文
posted @ 2019-11-28 14:56 西兰花是真的菜 阅读(537) 评论(0) 推荐(0) 编辑
摘要: 下载地址 apache索引目录 "Index of /dist" 分布式部署 1. 选择3台机器,这里选择了3台机器 2. 创建一个data目录,存放zk数据 例如 3. 在每台机器的data目录下,创建文件 myid,按机器编号写入1,2,3 第一台机器 myid文件写入 1 第二台机器 myid 阅读全文
posted @ 2019-11-19 19:49 西兰花是真的菜 阅读(217) 评论(0) 推荐(0) 编辑
摘要: [Toc] zookeeper是什么 定义:zookeeper是一个开源的分布式协调服务,一个典型的分布式数据一致性解决方案。 前世今生:Yahoo创建,最初为 hadoop的子项目,是google Chubby的开源实现,现为Apache的顶级项目。 分布式应用程序可以基于zookeeper实现数 阅读全文
posted @ 2019-11-19 19:46 西兰花是真的菜 阅读(277) 评论(0) 推荐(0) 编辑
摘要: [TOC] Yarn的调度流程详解 1. Client端提交作业到ResourceManager中的ApplicationManager,申请JobID(唯一ID) 2. RM返回一个作业ID,并且将一个临时hdfs路径返回给 Client,要求Client将要上传的文件发送到这个临时目录中。(任务 阅读全文
posted @ 2019-11-07 01:06 西兰花是真的菜 阅读(680) 评论(0) 推荐(0) 编辑