摘要: 1、List 列表:列表长度和内容均不可变,所有元素的类型相同,值一旦被定义了就不能改变,即不可被赋值改变,底层是链表结构。 scala list 有三个基本操作,head 返回列表第一个元素,tail 返回一个列表,包含除了第一元素之外的其他元素,isEmpty 在列表为空时返回true。 注意: 阅读全文
posted @ 2019-12-24 14:25 guoyu1 阅读(1566) 评论(0) 推荐(0) 编辑
摘要: 1、RDD概念: RDD 叫做 弹性分布式数据集,是spark中最基本的数据抽象。代表着一个可分区、元素可并行计算、不可变的数据集合。 RDD特点:自动容错、位置感知性调度、可伸缩性,允许用户在执行多个查询时显式地将工作集缓存在内存中,后续的查询能够重用工作集,这极大地提升了查询速度。 2、RDD原 阅读全文
posted @ 2019-12-24 14:05 guoyu1 阅读(1018) 评论(0) 推荐(0) 编辑
摘要: 一、reduceByKey和groupByKey的区别 1、reduceByKey:按照 key进行聚合,在 shuffle 之前有 combine(预聚合)操作,返回结果是 RDD[k,v]。 2、groupByKey:按照 key进行分组,直接进行 shuffle。开发指导:reduceByKe 阅读全文
posted @ 2019-12-24 11:14 guoyu1 阅读(881) 评论(0) 推荐(0) 编辑
摘要: DStream基本工作原理: DStream是Spark Streaming提供的一种高级抽象,英文全称为Discretized Stream,中文翻译为离散流,它代表了一个持续不断的数据流。DStream可以通过输入数据源(比如从Flume、Kafka中)来创建,也可以通过对其他DStream应用 阅读全文
posted @ 2019-12-24 10:41 guoyu1 阅读(540) 评论(0) 推荐(0) 编辑
摘要: 1、解耦 2、异步 3、削峰 https://mp.weixin.qq.com/s/3GMs3ae7ffDFgia9VSDMEg 阅读全文
posted @ 2019-12-23 10:19 guoyu1 阅读(411) 评论(0) 推荐(0) 编辑
摘要: 1、Dubbo:Dubbo是一个分布式服务框架,SOA治理方案。 主要功能有:高性能的NIO通讯以及协议集成、服务动态寻址与路由、软负载均衡与容错、依赖分析与降级 主要特点: 连通性:provider、consumer、register基于长连接,并且provider、consumer、regist 阅读全文
posted @ 2019-12-21 17:28 guoyu1 阅读(593) 评论(0) 推荐(0) 编辑
摘要: 有两种:Direct直连方式、Receiver方式 1、Receiver方式: (1)receiver内存溢出问题: 使用kafka高层次的consumer API来实现,使用receiver从kafka中获取的数据都保存在spark excutor的内存中,然后由Spark Streaming启动 阅读全文
posted @ 2019-12-21 16:07 guoyu1 阅读(2777) 评论(0) 推荐(1) 编辑
摘要: 搭建wordCount项目: https://blog.csdn.net/py_123456/article/details/82665623 1、代码: val conf: SparkConf = new SparkConf().setMaster(Local[*]).setAppName("wo 阅读全文
posted @ 2019-12-19 15:50 guoyu1 阅读(545) 评论(0) 推荐(0) 编辑
摘要: 一、Spark中的缓存机制: 避免spark每次都重算RDD以及它的所有依赖,cache()、persist()、 checkpoint()。 1、cache():会被重复使用,但是不能太大的RDD,将其cache()到内存当中,catch()属于 memory only 。cache 是每计算出一 阅读全文
posted @ 2019-12-18 15:32 guoyu1 阅读(2357) 评论(0) 推荐(2) 编辑
摘要: RDD:RDD分区数,若从HDFS创建RDD,RDD的分区就是和文件块一一对应,若是集合并行化形式创建,RDD分区数可以指定,一般默认值是CPU的核数。 task:task数量就是和分区数量对应。 这个全:https://www.cnblogs.com/frankdeng/p/9301672.htm 阅读全文
posted @ 2019-12-18 15:28 guoyu1 阅读(2920) 评论(1) 推荐(0) 编辑