摘要: 给定两个数组,编写一个函数来计算它们的交集。 示例 1: 输入: nums1 = [1,2,2,1], nums2 = [2,2] 输出: [2,2] 示例 2: 输入: nums1 = [4,9,5], nums2 = [9,4,9,8,4] 输出: [4,9] 说明: 输出结果中每个元素出现的次 阅读全文
posted @ 2020-08-17 12:07 马晟 阅读(98) 评论(0) 推荐(0) 编辑
摘要: RDD的多个Partition由不同Task处理,Task分为shuffleMapTask和resultTask 1.Task解析 Task是计算的基本单位,一个Task处理RDD的一个Partition,Task运行在Executor上,Executor位于CoarseGrainedExecuto 阅读全文
posted @ 2020-08-08 18:11 马晟 阅读(242) 评论(0) 推荐(0) 编辑
摘要: 1.原理说明 有向无环图:如果一个有向图无法从任意顶点出发经过若干条边回到该点,则这个图是一个 有向无环图(DAG图) 在Spark中对任务进行排队,形成一个集合就是DAG图,每一个顶点就是一个任务,每一条边代表一个依赖关系 通过DAG可以对计算流程进行优化,比如将单一节点的计算操作合并,对涉及sh 阅读全文
posted @ 2020-08-08 15:58 马晟 阅读(779) 评论(0) 推荐(0) 编辑
摘要: 1.窄依赖 窄依赖表示一个父RDD中的Partition最多被子RDD的一个Partition使用 窄依赖分为两种: 一种是一对一的依赖关系,比如map、filter等(OneToOneDependency) 另一种是范围依赖关系,比如union(RangeDependency) OneToOneD 阅读全文
posted @ 2020-08-08 15:12 马晟 阅读(322) 评论(0) 推荐(0) 编辑
摘要: 1.对数据存储自动进行内存和磁盘的切换 Spark优先将数据放入内存中,如果内存不够,放到磁盘里面,如果实际数据大于内存,需要考虑数据放置的策略和优化的算法 2.基于Lineage的容错机制 Lineage基于Spark RDD的依赖关系,对于每个操作只需要关联父操作,每个分片之间互不影响,出现错误 阅读全文
posted @ 2020-08-08 14:28 马晟 阅读(230) 评论(0) 推荐(0) 编辑
摘要: 1.定义 RDD是只读的记录分区的集合,是一种基于工作集的应用抽象 创建RDD的方式有两种: 从驱动程序中的集合中并行创建 从外部数据集创建 2.底层存储原理 每个RDD的数据以Block的形式存储在多个机器上,对于每个Executor都会启动一个BlockManagerSlave,并且管理一部分B 阅读全文
posted @ 2020-08-07 23:57 马晟 阅读(262) 评论(0) 推荐(0) 编辑
摘要: 1.文件目录布局 Kafka消息以日志文件的形式存储,不同主题下不同分区的消息分开存储,同一个分区的不同副本分布在不同的broker上存储 逻辑上看来日志是以副本为单位的,每个副本对应一个log对象,实际在物理上,一个log划分为多个logSegment 创建一个topic为3个分区,会在log.d 阅读全文
posted @ 2020-08-04 23:40 马晟 阅读(1603) 评论(0) 推荐(0) 编辑
摘要: 在Spark中要启用反压机制,需要将配置spark.streaming.backpressure.enabled设置为true,默认为false 具体实现 1.RateController 该类继承StreamingListener,是一个监听器 /** * A StreamingListener 阅读全文
posted @ 2020-08-04 23:36 马晟 阅读(663) 评论(0) 推荐(0) 编辑
摘要: 1.Reactor模式 一个线程监视一堆连接,同步等待一个或多个事件到来,然后将事件分发给对应的Handler处理 2.Kafka网络通信模型 引用源码(2.0.0)注释里的一段话: An NIO socket server. The threading model is 1 Acceptor th 阅读全文
posted @ 2020-07-30 23:52 马晟 阅读(541) 评论(0) 推荐(0) 编辑
摘要: 1.优先副本的选举 优先副本是为了解决负载失衡的情况,是指在AR集合列表中的第一个副本,比如分区0的AR集合列表为[1,2,0],那么分区0的优先副本即为1。理想情况下优先副本就是该分区的leader副本 优先副本的选举是指通过一定的方式促使优先副本选举为leader副本,来促进集群的负载均衡,也称 阅读全文
posted @ 2020-07-28 23:46 马晟 阅读(470) 评论(0) 推荐(0) 编辑