2020 年 2月 28 日随笔档案 - Xiaohu_BigData

2020年2月28日

摘要：调节Executor堆外内存概述: Spark底层shuffle的传输方式是使用netty传输，netty在进行网络传输的过程会申请堆外内存(netty是零拷贝)，所以使用了堆外内存。什么时候需要调节Executor的堆外内存大小? shuffle file cannot find (DAGS 阅读全文

posted @ 2020-02-28 13:58 Xiaohu_BigData 阅读(235) 评论(0) 推荐(0) 编辑

Spark调优（二）数据本地化

摘要： Application任务执行流程: 在Spark Application提交后，Driver会根据action算子划分成一个个的job，然后对每一个job划分成一个个的stage，stage内部实际上是由一系列并行计算的task组成的，然后以TaskSet的形式提交给你TaskSchedule 阅读全文

posted @ 2020-02-28 13:18 Xiaohu_BigData 阅读(266) 评论(0) 推荐(0) 编辑

Spark调优（一）

摘要：一、对多次使用的RDD进行持久化如何选择一种最合适的持久化策略？默认情况下，性能最高的当然是MEMORY_ONLY，但前提是你的内存必须足够足够大，可以绰绰有余地存放下整个RDD的所有数据。因为不进行序列化与反序列化操作，就避免了这部分的性能开销;对这个RDD的后续算子操作，都是基于纯内存中阅读全文

posted @ 2020-02-28 13:10 Xiaohu_BigData 阅读(162) 评论(0) 推荐(0) 编辑

Xiaohu_BigData

公告