上一页 1 ··· 6 7 8 9 10 11 12 13 14 ··· 19 下一页
摘要: Spark中的延迟调度 Spark的Task的调度过程有五个本地性级别:PROCESS_NODE、NODE_LOCAL、NO_PREF、RACK_LOCAL、ANY。在理想的状态下,我们肯定是想所有的Task的调度都是PROCESS_NODE级别的,这样的话所有的Task都是在数据所在的机器上进行计 阅读全文
posted @ 2019-11-29 17:11 花未全开*月未圆 阅读(487) 评论(0) 推荐(0) 编辑
摘要: 在使用spark-submit提交一个Spark应用之后,Driver程序会向集群申请一定的资源来启动东若干个Executors用来计算,当这些Executors启动后,它们会向Driver端的SchedulerBackend进行注册,告诉Driver端整个每一个Executor的资源情况。 那么在 阅读全文
posted @ 2019-11-29 17:09 花未全开*月未圆 阅读(734) 评论(1) 推荐(0) 编辑
摘要: 一言以蔽之: 累加器就是只写变量 通常就是做事件统计用的 因为rdd是在不同的excutor去执行的 你在不同excutor中累加的结果 没办法汇总到一起 这个时候就需要累加器来帮忙完成 广播变量是只读变量 正常的话我们在driver定义一个变量 需要序列化 才能在excutor端使用 而且是每个t 阅读全文
posted @ 2019-11-29 17:06 花未全开*月未圆 阅读(236) 评论(0) 推荐(0) 编辑
摘要: 内存调优 Hadoop处理数据时,出现内存溢出的处理方法?(内存调优) 1、Mapper/Reducer阶段JVM内存溢出(一般都是堆) 1)JVM堆(Heap)内存溢出:堆内存不足时,一般会抛出如下异常: 第一种:“java.lang.OutOfMemoryError:” GC overhead 阅读全文
posted @ 2019-11-29 16:50 花未全开*月未圆 阅读(6560) 评论(0) 推荐(0) 编辑
摘要: Map阶段优化 1、在代码书写时优化,如尽量避免在map端创建变量等,因为map端是循环调用的,创建变量会增加内存的消耗,尽量将创建变量放到setup方法中 2、配置调优,可以在集群配置和任务运行时进行调优,如:调优总的原则给shufflfflffle过程尽量多提供内存空间,在map端,可以通过避免 阅读全文
posted @ 2019-11-29 16:49 花未全开*月未圆 阅读(2498) 评论(0) 推荐(0) 编辑
摘要: MapReduce的核心运行机制概述: 一个完整的 MapReduce 程序在分布式运行时有两类实例进程: 1、MRAppMaster:负责整个程序的过程调度及状态协调 2、Yarnchild:负责 map 阶段的整个数据处理流程 3、Yarnchild:负责 reduce 阶段的整个数据处理流程 阅读全文
posted @ 2019-11-29 16:29 花未全开*月未圆 阅读(249) 评论(0) 推荐(0) 编辑
摘要: Hadoop2.X后,MapReduce一般都是跑在Yarn上,所以说MapReduce的运行原理,更多是讲MapReduce On Yarn的运行原理,MapReduce On Yarn的运行原理图如下: 1:job的提交 1.1、向RM申请一个新的applicationId 1.2、判断job的 阅读全文
posted @ 2019-11-29 16:13 花未全开*月未圆 阅读(183) 评论(0) 推荐(0) 编辑
摘要: Reduce大致分为copy、sort、reduce三个阶段,重点在前两个阶段。copy阶段包含一个eventFetcher来获 取已完成的map列表,由Fetcher线程去copy数据,在此过程中会启动两个merge线程,分别为 inMemoryMerger和onDiskMerger,分别将内存中 阅读全文
posted @ 2019-11-29 16:07 花未全开*月未圆 阅读(547) 评论(0) 推荐(0) 编辑
摘要: (1)Read阶段:MapTask通过用户编写的RecordReader,从输入InputSplit中解析出一个个key/value。 (2)Map阶段:该节点主要是将解析出的key/value交给用户编写map()函数处理,并产生一系列新的key/value。 (3)Collect收集阶段:在用户 阅读全文
posted @ 2019-11-29 16:02 花未全开*月未圆 阅读(191) 评论(0) 推荐(0) 编辑
摘要: 概述 1、MapReduce 中,mapper 阶段处理的数据如何传递给 reducer 阶段,是 MapReduce 框架中 最关键的一个流程,这个流程就叫 Shuffle 2、Shuffle: 数据混洗 ——(核心机制:数据分区,排序,局部聚合,缓存,拉取,再合并 排序) 3、具体来说:就是将 阅读全文
posted @ 2019-11-29 16:00 花未全开*月未圆 阅读(487) 评论(0) 推荐(0) 编辑
上一页 1 ··· 6 7 8 9 10 11 12 13 14 ··· 19 下一页