摘要:
1、List 列表:列表长度和内容均不可变,所有元素的类型相同,值一旦被定义了就不能改变,即不可被赋值改变,底层是链表结构。 scala list 有三个基本操作,head 返回列表第一个元素,tail 返回一个列表,包含除了第一元素之外的其他元素,isEmpty 在列表为空时返回true。 注意: 阅读全文
摘要:
1、RDD概念: RDD 叫做 弹性分布式数据集,是spark中最基本的数据抽象。代表着一个可分区、元素可并行计算、不可变的数据集合。 RDD特点:自动容错、位置感知性调度、可伸缩性,允许用户在执行多个查询时显式地将工作集缓存在内存中,后续的查询能够重用工作集,这极大地提升了查询速度。 2、RDD原 阅读全文
摘要:
一、reduceByKey和groupByKey的区别 1、reduceByKey:按照 key进行聚合,在 shuffle 之前有 combine(预聚合)操作,返回结果是 RDD[k,v]。 2、groupByKey:按照 key进行分组,直接进行 shuffle。开发指导:reduceByKe 阅读全文
摘要:
DStream基本工作原理: DStream是Spark Streaming提供的一种高级抽象,英文全称为Discretized Stream,中文翻译为离散流,它代表了一个持续不断的数据流。DStream可以通过输入数据源(比如从Flume、Kafka中)来创建,也可以通过对其他DStream应用 阅读全文