摘要: 一.数据倾斜解决方案之原理以及现象分析 1、数据倾斜的现象 在任何大数据类的项目中,都是最棘手的性能问题,最能体现人的技术能力,最能体现RD(Research Developer,研发工程师)的技术水平。 数据倾斜 = 性能杀手 如果没有丰富的经验,或者没有受过专业的技术培训,是很难解决数据倾斜问题 阅读全文
posted @ 2019-09-03 21:31 Transkai 阅读(646) 评论(0) 推荐(0) 编辑
摘要: 一.troubleshooting之控制shuffle reduce端缓冲大小以避免OOM 二.troubleshooting之解决JVM GC导致的shuffle文件拉取失败 三.troubleshooting之解决YARN队列资源不足导致的application直接失败 四.troublesho 阅读全文
posted @ 2019-09-03 16:41 Transkai 阅读(370) 评论(0) 推荐(0) 编辑
摘要: 一.算子调优之MapPartitions提升Map类操作性能 1.MapPartitions操作的优点: 如果是普通的map,比如一个partition中有1万条数据;ok,那么你的function要执行和计算1万次。 但是,使用MapPartitions操作之后,一个task仅仅会执行一次func 阅读全文
posted @ 2019-09-03 15:03 Transkai 阅读(1644) 评论(0) 推荐(0) 编辑