上一页 1 2 3 4 5 6 7 8 9 10 ··· 19 下一页
摘要: (1) Receiver 方式 使用 kafka 的高层次 API 进行消费,然而,在默认的配置下,这种方式可能会因为底层的失败而丢失数据。如果要启用高可靠机制,让数据零丢失,就必须启用 Spark Streaming 的预写日志机制(Write Ahead Log,WAL)。该机制会同步地将接收到 阅读全文
posted @ 2020-04-17 12:26 花未全开*月未圆 阅读(884) 评论(0) 推荐(0) 编辑
摘要: (1) 从序列化的角度 Spark 提供了两种序列化库,一种是 java 的序列化,另一种是 Kryo 序列化。Java 的序列化框架相对来说性能较慢,如果在网络密集型的应用中不太合适。因此可以将序列化的方式调整为 Kryo 的序列化方式,Kryo 序列化比 java 序列化在速度上更快(一般在 1 阅读全文
posted @ 2020-04-17 12:22 花未全开*月未圆 阅读(174) 评论(0) 推荐(0) 编辑
摘要: Spark 中的调度模式主要有两种:FIFO 和 FAIR。默认情况下 Spark 的调度模式是 FIFO(先进先出),谁先提交谁先执行,后面的任务需要等待前面的任务执行。而 FAIR(公平调度)模式支持在调度池中为任务进行分组,不同的调度池权重不同,任务可以按照权重来决定执行顺序。使用哪种调度器由 阅读全文
posted @ 2020-04-17 12:21 花未全开*月未圆 阅读(768) 评论(0) 推荐(0) 编辑
摘要: 这里我们先明确一个假设前提:每个 Executor 只有 1 个 CPU core,也就是说,无论这个 Executor 上分配多少个 task 线程,同一时间都只能执行一个 task 线程。 1. 未经优化的 HashShuffleManager shuffle write 阶段将每个 task 阅读全文
posted @ 2020-04-17 12:20 花未全开*月未圆 阅读(266) 评论(0) 推荐(0) 编辑
摘要: 有两种模式:cluster 和 driver 区别: cluster 模式:Driver 程序在 YARN 中运行,应用的运行结果不能在客户端显示,所以最好运行那些将结果最终保存在外部存储介质(如 HDFS、Redis、Mysql)而非 stdout 输出的应用程序,客户端的终端显示的仅是作为 YA 阅读全文
posted @ 2020-04-17 12:16 花未全开*月未圆 阅读(1166) 评论(0) 推荐(0) 编辑
摘要: 问题:如果在 shuffle 的时候没有指定 reduce 的个数,那么会有多少个 reduce? 如果不指定 reduce 个数的话,就按默认的走: 1、如果自定义了分区函数 partitioner 的话,就按你的分区函数来走。 2、如果没有定义,那么如果设置了 spark.default.par 阅读全文
posted @ 2020-04-17 12:15 花未全开*月未圆 阅读(505) 评论(0) 推荐(0) 编辑
摘要: 问题:如果在 shuffle 的时候没有指定 reduce 的个数,那么会有多少个 reduce?如果不指定 reduce 个数的话,就按默认的走:1、如果自定义了分区函数 partitioner 的话,就按你的分区函数来走。2、如果没有定义,那么如果设置了 spark.default.parall 阅读全文
posted @ 2020-04-16 18:18 花未全开*月未圆 阅读(379) 评论(0) 推荐(0) 编辑
摘要: Spark缺点无论是 Spark Streaming还是 Structured Streaming,Spark流处理的实时性还不够,所以无法用在一些对实时性要求很高的流处理场景中。这是因为 Spark的流处理是基于所谓微批处理( Micro- batch processing)的思想,即它把流处理看 阅读全文
posted @ 2020-03-17 10:56 花未全开*月未圆 阅读(11899) 评论(0) 推荐(4) 编辑
摘要: 一、消息队列概述 消息队列中间件是分布式系统中重要的组件,主要解决应用解耦,异步消息,流量削锋等问题,实现高性能,高可用,可伸缩和最终一致性架构。目前使用较多的消息队列有ActiveMQ,RabbitMQ,ZeroMQ,Kafka,MetaMQ,RocketMQ 二、消息队列应用场景 以下介绍消息队 阅读全文
posted @ 2019-12-22 15:55 花未全开*月未圆 阅读(289) 评论(0) 推荐(0) 编辑
摘要: 一、消息中间件相关知识 1、概述 消息队列已经逐渐成为企业IT系统内部通信的核心手段。它具有低耦合、可靠投递、广播、流量控制、最终一致性等一系列功能,成为异步RPC的主要手段之一。当今市面上有很多主流的消息中间件,如老牌的ActiveMQ、RabbitMQ,炙手可热的Kafka,阿里巴巴自主开发Ro 阅读全文
posted @ 2019-12-22 15:54 花未全开*月未圆 阅读(1225) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 8 9 10 ··· 19 下一页