2018 年 11月 23 日随笔档案 - IT晓白

摘要： Spark数据倾斜(数据分布不均匀)数据倾斜发生时的现象：绝大多数task（任务）执行得都非常快，但个别task执行极慢。 OOM(内存溢出)，这种情况比较少见。数据倾斜发生的原理数据倾斜的原理很简单：在进行shuffle的时候，必须将各个节点上相同的key拉取到某个... 阅读全文

posted @ 2018-11-23 21:03 IT晓白阅读(499) 评论(0) 推荐(0) 编辑

摘要： PipeLine Pipeline:管道，在spark mllib中，作用主要是来定义计算的流程。模型的保存等。相当于提供了一个工具类，可以让我们更方便的使用spark mllib 推荐：在使用spa... 阅读全文

posted @ 2018-11-23 20:34 IT晓白阅读(357) 评论(0) 推荐(0) 编辑

摘要： Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。当前... 阅读全文

posted @ 2018-11-23 19:33 IT晓白阅读(270) 评论(0) 推荐(0) 编辑

一个双鱼座的列表儿