上一页 1 ··· 6 7 8 9 10 11 12 13 14 下一页
摘要: High Throughput Producer 在有大量消息需要发送的情况下,默认的Kafka Producer配置可能无法达到一个可观的的吞吐。在这种情况下,我们可以考虑调整两个方面,以提高Producer 的吞吐。分别为消息压缩(message compression),以及消息批量发送(ba 阅读全文
posted @ 2019-08-28 11:22 ZacksTang 阅读(692) 评论(0) 推荐(0) 编辑
摘要: Kafka Safe Producer 在应用Kafka的场景中,需要考虑到在异常发生时(如网络异常),被发送的消息有可能会出现丢失、乱序、以及重复消息。 对于这些情况,我们可以创建一个“safe producer”,用于规避这些问题。下面我们会先介绍对于这几种情况的说明以及配置,最后给出一个配置示 阅读全文
posted @ 2019-08-25 19:53 ZacksTang 阅读(759) 评论(0) 推荐(0) 编辑
摘要: 1. Produer 1.1. 基本 Producer 首先使用 maven 构建相关依赖,这里我们服务器kafka 版本为 2.12-2.3.0,pom.xml 文件为: 1 <?xml version="1.0" encoding="UTF-8"?> 2 <project xmlns="http 阅读全文
posted @ 2019-08-11 18:28 ZacksTang 阅读(1640) 评论(0) 推荐(0) 编辑
摘要: 1. Topics CLI 1.1 首先启动 zookeeper 与 kafka > zookeeper-server-start.sh config/zookeeper.properties … INFO binding to port 0.0.0.0/0.0.0.0:2181 (org.apac 阅读全文
posted @ 2019-08-11 11:54 ZacksTang 阅读(1665) 评论(0) 推荐(0) 编辑
摘要: 安装并启动Kafka 1.下载最新版Kafka(当前为kafka_2.12-2.3.0)并解压: > wget http://mirror.bit.edu.cn/apache/kafka/2.3.0/kafka_2.12-2.3.0.tgz > tar zxvf kafka_2.12-2.3.0.t 阅读全文
posted @ 2019-08-06 18:29 ZacksTang 阅读(375) 评论(0) 推荐(0) 编辑
摘要: Apache Kafka 1. Kafka简介、优势、以及使用场景 Kafka的优势: 开源 分布式,弹性架构,fault tolerant 水平扩展: 可以扩展到100个brokers 可以扩展到每秒百万级条消息 高性能(延迟少于10ms)-- 实时 使用场景: 消息系统 活动追踪(Activit 阅读全文
posted @ 2019-08-06 17:45 ZacksTang 阅读(686) 评论(1) 推荐(0) 编辑
摘要: 1. Airflow Airflow是一个调度、监控工作流的平台。用于将一个工作流制定为一组任务的有向无环图(DAG),并指派到一组计算节点上,根据相互之间的依赖关系,有序执行。 2. 安装 pip安装airflow: pip3 install apache-airflow 初始化db: airfl 阅读全文
posted @ 2019-06-25 13:31 ZacksTang 阅读(4577) 评论(0) 推荐(0) 编辑
摘要: Normal 0 false false false false EN-US ZH-CN X-NONE 1. DataFrames,Datasets,与SparkSQL Spark SQL 以及它的 DataFrames和Datasets 接口是Spark性能的未来,它们提供了更高效的存储选择,高级 阅读全文
posted @ 2019-06-12 14:21 ZacksTang 阅读(589) 评论(0) 推荐(0) 编辑
摘要: 避免使用GroupByKey 我们看一下两种计算word counts 的方法,一个使用reduceByKey,另一个使用 groupByKey: val words = Array("one", "two", "two", "three", "three", "three") val wordPa 阅读全文
posted @ 2019-06-08 15:05 ZacksTang 阅读(1464) 评论(0) 推荐(1) 编辑
摘要: Spark 允许用户为driver(或主节点)编写运行在计算集群上,并行处理数据的程序。在Spark中,它使用RDDs代表大型的数据集,RDDs是一组不可变的分布式的对象的集合,存储在executors中(或从节点)。组成RDDs的对象称为partitions,并可能(但是也不是必须的)在分布式系统 阅读全文
posted @ 2019-06-07 15:48 ZacksTang 阅读(2841) 评论(0) 推荐(0) 编辑
上一页 1 ··· 6 7 8 9 10 11 12 13 14 下一页