摘要: 调节Executor堆外内存 概述: Spark底层shuffle的传输方式是使用netty传输,netty在进行网络传输的过程会申请堆外 内存(netty是零拷贝),所以使用了堆外内存。 什么时候需要调节Executor的堆外内存大小? shuffle file cannot find (DAGS 阅读全文
posted @ 2020-02-28 13:58 Xiaohu_BigData 阅读(235) 评论(0) 推荐(0) 编辑
摘要: Application任务执行流程: 在Spark Application提交后,Driver会根据action算子划分成一个个的job,然后对每一 个job划分成一个个的stage,stage内部实际上是由一系列并行计算的task组成的,然后 以TaskSet的形式提交给你TaskSchedule 阅读全文
posted @ 2020-02-28 13:18 Xiaohu_BigData 阅读(263) 评论(0) 推荐(0) 编辑
摘要: 一、对多次使用的RDD进行持久化 如何选择一种最合适的持久化策略? 默认情况下,性能最高的当然是MEMORY_ONLY,但前提是你的内存必须足够足够大, 可以绰绰有余地存放下整个RDD的所有数据。因为不进行序列化与反序列化操作,就避 免了这部分的性能开销;对这个RDD的后续算子操作,都是基于纯内存中 阅读全文
posted @ 2020-02-28 13:10 Xiaohu_BigData 阅读(161) 评论(0) 推荐(0) 编辑