2018年11月14日

摘要: 一、对于数据倾斜的发生一般都是一个key对应的数据过大,而导致Task执行过慢,或者内存溢出(OOM),一般是发生在shuffle的时候,比如reduceByKey,groupByKey,sortByKey等,容易产生数据倾斜。 那么针对数据倾斜我们如何解决呢?我们可以首先观看log日志,以为log 阅读全文

posted @ 2018-11-14 13:30 渣渣的pp 阅读(1603) 评论(0) 推荐(0) 编辑

摘要: 对于Job的运行全流程来说我们只需要记住几个特殊的点即可,比如:TextInputFormat、LineRecordreader、partitioner、compareTo、combiner、Groupingcomparator、TextOutputFormat、LineRecordReader。图 阅读全文

posted @ 2018-11-14 10:58 渣渣的pp 阅读(165) 评论(0) 推荐(0) 编辑

摘要: 在hadoop1.0版本以前我们的Mapreduce是被当作资源调度和计算框架来使用的,成为了hadoop运行生态圈的瓶颈,所以在hadoop2.0版本以上引入了yarn的概念,使Mapreduce完全成为分布式计算框架,而Yarn成为了分布式资源调度。虽然mapreduce处理速度很慢,IO操作会 阅读全文

posted @ 2018-11-14 10:44 渣渣的pp 阅读(1027) 评论(0) 推荐(0) 编辑