上一页 1 ··· 6 7 8 9 10 11 12 13 14 下一页
摘要: 1. Topics CLI 1.1 首先启动 zookeeper 与 kafka > zookeeper-server-start.sh config/zookeeper.properties … INFO binding to port 0.0.0.0/0.0.0.0:2181 (org.apac 阅读全文
posted @ 2019-08-11 11:54 ZacksTang 阅读(1579) 评论(0) 推荐(0) 编辑
摘要: 安装并启动Kafka 1.下载最新版Kafka(当前为kafka_2.12-2.3.0)并解压: > wget http://mirror.bit.edu.cn/apache/kafka/2.3.0/kafka_2.12-2.3.0.tgz > tar zxvf kafka_2.12-2.3.0.t 阅读全文
posted @ 2019-08-06 18:29 ZacksTang 阅读(370) 评论(0) 推荐(0) 编辑
摘要: Apache Kafka 1. Kafka简介、优势、以及使用场景 Kafka的优势: 开源 分布式,弹性架构,fault tolerant 水平扩展: 可以扩展到100个brokers 可以扩展到每秒百万级条消息 高性能(延迟少于10ms)-- 实时 使用场景: 消息系统 活动追踪(Activit 阅读全文
posted @ 2019-08-06 17:45 ZacksTang 阅读(676) 评论(1) 推荐(0) 编辑
摘要: 1. Airflow Airflow是一个调度、监控工作流的平台。用于将一个工作流制定为一组任务的有向无环图(DAG),并指派到一组计算节点上,根据相互之间的依赖关系,有序执行。 2. 安装 pip安装airflow: pip3 install apache-airflow 初始化db: airfl 阅读全文
posted @ 2019-06-25 13:31 ZacksTang 阅读(4526) 评论(0) 推荐(0) 编辑
摘要: Normal 0 false false false false EN-US ZH-CN X-NONE 1. DataFrames,Datasets,与SparkSQL Spark SQL 以及它的 DataFrames和Datasets 接口是Spark性能的未来,它们提供了更高效的存储选择,高级 阅读全文
posted @ 2019-06-12 14:21 ZacksTang 阅读(583) 评论(0) 推荐(0) 编辑
摘要: 避免使用GroupByKey 我们看一下两种计算word counts 的方法,一个使用reduceByKey,另一个使用 groupByKey: val words = Array("one", "two", "two", "three", "three", "three") val wordPa 阅读全文
posted @ 2019-06-08 15:05 ZacksTang 阅读(1446) 评论(0) 推荐(1) 编辑
摘要: Spark 允许用户为driver(或主节点)编写运行在计算集群上,并行处理数据的程序。在Spark中,它使用RDDs代表大型的数据集,RDDs是一组不可变的分布式的对象的集合,存储在executors中(或从节点)。组成RDDs的对象称为partitions,并可能(但是也不是必须的)在分布式系统 阅读全文
posted @ 2019-06-07 15:48 ZacksTang 阅读(2798) 评论(0) 推荐(0) 编辑
摘要: 3. 事件-时间(Event-Time)处理 在“时间语义”中,我们强调了在流处理应用中时间语义的重要性,并解释了处理时间与事件时间的不同点。处理时间较好理解,因为它基于本地机器的时间,它产生的是有点任意的、不一致的、以及无法复现的结果。而事件时间的语义产生的是可复现的、一致性的结果,它对于很多流处 阅读全文
posted @ 2019-05-30 20:36 ZacksTang 阅读(8086) 评论(0) 推荐(1) 编辑
摘要: 2. Flink中的数据传输 在一个运行的application中,它的tasks在持续交换数据。TaskManager负责做数据传输。TaskManager的网络组件首先从缓冲buffer中收集records,然后再发送。也就是说,records并不是一个接一个的发送,而是先放入缓冲,然后再以ba 阅读全文
posted @ 2019-05-30 15:04 ZacksTang 阅读(3749) 评论(0) 推荐(0) 编辑
摘要: 1. Hive文件与记录格式 Create table 有多种用法,例如STORED AS SEQUENCEFILE, ROW FORMAT DELIMITED, SERDE, INPUTFORMAT, OUTPUTFORMAT 这些语法。 某些语法是其他语法的快捷用法,例如: 语法 STORED 阅读全文
posted @ 2019-05-28 20:36 ZacksTang 阅读(2700) 评论(0) 推荐(0) 编辑
上一页 1 ··· 6 7 8 9 10 11 12 13 14 下一页