摘要:
操作场景 并行度控制任务的数量,影响shuffle操作后数据被切分成的块数。调整并行度让任务的数量和每个任务处理的数据与机器的处理能力达到最优 查看CPU使用情况和内存占用情况,当任务和数据不是平均分布在各节点,而是集中在个别节点时,可以增大并行度使任务和数据更均匀的分布在各个节点。增加任务的并行度 阅读全文
摘要:
分配更多资源:性能调优的王道,就是增加和分配更多的资源,性能和速度上的提升,是显而易见的 1、分配哪些资源? executor、cpu per executor、memory per executor、driver memory 2、在哪里分配这些资源? 在我们在生产环境中,提交spark作业时,用 阅读全文