摘要: 前置知识 spark任务模型 1. job:action的调用,触发了DAG的提交和整个job的执行。 2. stage:stage是由是否shuffle来划分,如果发生shuffle,则分为2个stage。 3. taskSet:每一个stage对应1个taskset.1个taskset有多个ta 阅读全文
posted @ 2018-05-02 21:40 small_k 阅读(390) 评论(0) 推荐(0) 编辑
摘要: spark数据倾斜处理 危害: 1. 当出现数据倾斜时,小量任务耗时远高于其它任务,从而使得整体耗时过大,未能充分发挥分布式系统的并行计算优势。 2. 当发生数据倾斜时,部分任务处理的数据量过大,可能造成内存不足使得任务失败,并进而引进整个应用失败。 表现:同一个stage的多个task执行时间不一 阅读全文
posted @ 2018-05-02 19:37 small_k 阅读(3184) 评论(0) 推荐(0) 编辑