摘要: Yarn提供可插拔的调度的算法,用于解决application之间资源竞争问题. 根据当前多租户多应用类型的应用场景,我们使用FairSchedule资源调度算法,来管理我们用户提交的队列、队列资源竞争.主要涉及... 阅读全文
posted @ 2017-11-07 15:30 柚子=_= 阅读(271) 评论(0) 推荐(0) 编辑
摘要: 试想一下,你现在所在的公司有一个hadoop的集群。但是A项目组经常做一些定时的BI报表,B项目组则经常使用一些软件做一些临时需求。那么他们肯定会遇到同时提交任务的场景,这个时候到底如何分配资源满足这两个任务呢?... 阅读全文
posted @ 2017-11-07 15:28 柚子=_= 阅读(699) 评论(0) 推荐(0) 编辑
摘要: 虽然spark已经提供了大量简单易用的API,但要想编写出高性能的spark应用,必须要对整体框架有一定的了解,对于Spark初学者来说是比较困难的。针对这个这个问题,其实在spark1.6中,已经加入了data... 阅读全文
posted @ 2017-11-07 15:19 柚子=_= 阅读(224) 评论(0) 推荐(0) 编辑
摘要: 一. 数据倾斜的现象多数task执行速度较快,少数task执行时间非常长,或者等待很长时间后提示你内存不足,执行失败。二. 数据倾斜的原因常见于各种shuffle操作,例如reduceByKey,groupByK... 阅读全文
posted @ 2017-11-07 15:18 柚子=_= 阅读(145) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2017-11-07 15:16 柚子=_= 阅读(92) 评论(0) 推荐(0) 编辑