摘要: Spark数据倾斜(数据分布不均匀)数据倾斜发生时的现象:绝大多数task(任务)执行得都非常快,但个别task执行极慢。 OOM(内存溢出),这种情况比较少见。数据倾斜发生的原理数据倾斜的原理很简单:在进行shuffle的时候,必须将各个节点上相同的key拉取到某个... 阅读全文
posted @ 2018-11-23 21:03 IT晓白 阅读(491) 评论(0) 推荐(0) 编辑
摘要: PipeLine Pipeline:管道, 在spark mllib中,作用主要是来定义计算的流程。模型的保存等。 相当于提供了一个工具类,可以让我们更方便的使用spark mllib 推荐:在使用spa... 阅读全文
posted @ 2018-11-23 20:34 IT晓白 阅读(351) 评论(0) 推荐(0) 编辑
摘要: Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。 当前... 阅读全文
posted @ 2018-11-23 19:33 IT晓白 阅读(265) 评论(0) 推荐(0) 编辑