花未全开*月未圆

2019年11月29日

摘要： Spark中的延迟调度 Spark的Task的调度过程有五个本地性级别：PROCESS_NODE、NODE_LOCAL、NO_PREF、RACK_LOCAL、ANY。在理想的状态下，我们肯定是想所有的Task的调度都是PROCESS_NODE级别的，这样的话所有的Task都是在数据所在的机器上进行计阅读全文

posted @ 2019-11-29 17:11 花未全开*月未圆阅读(558) 评论(0) 推荐(0)

sparkjob的提交流程

摘要：在使用spark-submit提交一个Spark应用之后，Driver程序会向集群申请一定的资源来启动东若干个Executors用来计算，当这些Executors启动后，它们会向Driver端的SchedulerBackend进行注册，告诉Driver端整个每一个Executor的资源情况。那么在阅读全文

posted @ 2019-11-29 17:09 花未全开*月未圆阅读(767) 评论(1) 推荐(0)

spark累加器、广播变量

摘要：一言以蔽之：累加器就是只写变量通常就是做事件统计用的因为rdd是在不同的excutor去执行的你在不同excutor中累加的结果没办法汇总到一起这个时候就需要累加器来帮忙完成广播变量是只读变量正常的话我们在driver定义一个变量需要序列化才能在excutor端使用而且是每个t 阅读全文

posted @ 2019-11-29 17:06 花未全开*月未圆阅读(284) 评论(0) 推荐(0)

MapReduce内存调优

摘要：内存调优 Hadoop处理数据时，出现内存溢出的处理方法？（内存调优） 1、Mapper/Reducer阶段JVM内存溢出（一般都是堆） 1)JVM堆(Heap)内存溢出：堆内存不足时，一般会抛出如下异常：第一种：“java.lang.OutOfMemoryError:” GC overhead 阅读全文

posted @ 2019-11-29 16:50 花未全开*月未圆阅读(6804) 评论(0) 推荐(0)

MapReduce如何调优

摘要： Map阶段优化 1、在代码书写时优化，如尽量避免在map端创建变量等，因为map端是循环调用的，创建变量会增加内存的消耗，尽量将创建变量放到setup方法中 2、配置调优，可以在集群配置和任务运行时进行调优，如：调优总的原则给shufflfflffle过程尽量多提供内存空间，在map端，可以通过避免阅读全文

posted @ 2019-11-29 16:49 花未全开*月未圆阅读(2752) 评论(0) 推荐(0)

MapReduce的核心运行机制

摘要： MapReduce的核心运行机制概述：一个完整的 MapReduce 程序在分布式运行时有两类实例进程： 1、MRAppMaster：负责整个程序的过程调度及状态协调 2、Yarnchild：负责 map 阶段的整个数据处理流程 3、Yarnchild：负责 reduce 阶段的整个数据处理流程阅读全文

posted @ 2019-11-29 16:29 花未全开*月未圆阅读(341) 评论(0) 推荐(0)

MapReduce运行原理

摘要： Hadoop2.X后，MapReduce一般都是跑在Yarn上，所以说MapReduce的运行原理，更多是讲MapReduce On Yarn的运行原理，MapReduce On Yarn的运行原理图如下： 1：job的提交 1.1、向RM申请一个新的applicationId 1.2、判断job的阅读全文

posted @ 2019-11-29 16:13 花未全开*月未圆阅读(215) 评论(0) 推荐(0)

Reducetask机制

摘要： Reduce大致分为copy、sort、reduce三个阶段，重点在前两个阶段。copy阶段包含一个eventFetcher来获取已完成的map列表，由Fetcher线程去copy数据，在此过程中会启动两个merge线程，分别为 inMemoryMerger和onDiskMerger，分别将内存中阅读全文

posted @ 2019-11-29 16:07 花未全开*月未圆阅读(586) 评论(0) 推荐(0)

MapTask工作机制

摘要：（1）Read阶段：MapTask通过用户编写的RecordReader，从输入InputSplit中解析出一个个key/value。（2）Map阶段：该节点主要是将解析出的key/value交给用户编写map()函数处理，并产生一系列新的key/value。（3）Collect收集阶段：在用户阅读全文

posted @ 2019-11-29 16:02 花未全开*月未圆阅读(211) 评论(0) 推荐(0)

shuffle机制

摘要：概述 1、MapReduce 中，mapper 阶段处理的数据如何传递给 reducer 阶段，是 MapReduce 框架中最关键的一个流程，这个流程就叫 Shuffle 2、Shuffle: 数据混洗 ——（核心机制：数据分区，排序，局部聚合，缓存，拉取，再合并排序） 3、具体来说：就是将阅读全文

posted @ 2019-11-29 16:00 花未全开*月未圆阅读(581) 评论(0) 推荐(0)

花未全开*月未圆

谦虚谨慎，戒骄戒躁，稳中求进，悟道行之

公告