会员
周边
新闻
博问
闪存
赞助商
YouClaw
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
ZacksTang
博客园
首页
新随笔
联系
管理
订阅
上一页
1
···
7
8
9
10
11
12
13
14
15
下一页
2019年8月11日
Apache Kafka(三)- Kakfa CLI 使用
摘要: 1. Topics CLI 1.1 首先启动 zookeeper 与 kafka > zookeeper-server-start.sh config/zookeeper.properties … INFO binding to port 0.0.0.0/0.0.0.0:2181 (org.apac
阅读全文
posted @ 2019-08-11 11:54 ZacksTang
阅读(1774)
评论(0)
推荐(0)
2019年8月6日
Apache Kafka(二)- Kakfa 安装与启动
摘要: 安装并启动Kafka 1.下载最新版Kafka(当前为kafka_2.12-2.3.0)并解压: > wget http://mirror.bit.edu.cn/apache/kafka/2.3.0/kafka_2.12-2.3.0.tgz > tar zxvf kafka_2.12-2.3.0.t
阅读全文
posted @ 2019-08-06 18:29 ZacksTang
阅读(426)
评论(0)
推荐(0)
Apache Kafka(一)- Kakfa 简介与术语
摘要: Apache Kafka 1. Kafka简介、优势、以及使用场景 Kafka的优势: 开源 分布式,弹性架构,fault tolerant 水平扩展: 可以扩展到100个brokers 可以扩展到每秒百万级条消息 高性能(延迟少于10ms)-- 实时 使用场景: 消息系统 活动追踪(Activit
阅读全文
posted @ 2019-08-06 17:45 ZacksTang
阅读(741)
评论(1)
推荐(0)
2019年6月25日
Airflow 调度基础
摘要: 1. Airflow Airflow是一个调度、监控工作流的平台。用于将一个工作流制定为一组任务的有向无环图(DAG),并指派到一组计算节点上,根据相互之间的依赖关系,有序执行。 2. 安装 pip安装airflow: pip3 install apache-airflow 初始化db: airfl
阅读全文
posted @ 2019-06-25 13:31 ZacksTang
阅读(4736)
评论(0)
推荐(0)
2019年6月12日
DataFrames,Datasets,与 SparkSQL
摘要: Normal 0 false false false false EN-US ZH-CN X-NONE 1. DataFrames,Datasets,与SparkSQL Spark SQL 以及它的 DataFrames和Datasets 接口是Spark性能的未来,它们提供了更高效的存储选择,高级
阅读全文
posted @ 2019-06-12 14:21 ZacksTang
阅读(684)
评论(0)
推荐(0)
2019年6月8日
Spark 中 GroupByKey 相对于 combineByKey, reduceByKey, foldByKey 的优缺点
摘要: 避免使用GroupByKey 我们看一下两种计算word counts 的方法,一个使用reduceByKey,另一个使用 groupByKey: val words = Array("one", "two", "two", "three", "three", "three") val wordPa
阅读全文
posted @ 2019-06-08 15:05 ZacksTang
阅读(1592)
评论(0)
推荐(1)
2019年6月7日
Spark 并行计算模型:RDD
摘要: Spark 允许用户为driver(或主节点)编写运行在计算集群上,并行处理数据的程序。在Spark中,它使用RDDs代表大型的数据集,RDDs是一组不可变的分布式的对象的集合,存储在executors中(或从节点)。组成RDDs的对象称为partitions,并可能(但是也不是必须的)在分布式系统
阅读全文
posted @ 2019-06-07 15:48 ZacksTang
阅读(2982)
评论(0)
推荐(0)
2019年5月30日
Flink架构(三)- 事件-时间(Event-Time)处理
摘要: 3. 事件-时间(Event-Time)处理 在“时间语义”中,我们强调了在流处理应用中时间语义的重要性,并解释了处理时间与事件时间的不同点。处理时间较好理解,因为它基于本地机器的时间,它产生的是有点任意的、不一致的、以及无法复现的结果。而事件时间的语义产生的是可复现的、一致性的结果,它对于很多流处
阅读全文
posted @ 2019-05-30 20:36 ZacksTang
阅读(8350)
评论(0)
推荐(1)
Flink架构(二)- Flink中的数据传输
摘要: 2. Flink中的数据传输 在一个运行的application中,它的tasks在持续交换数据。TaskManager负责做数据传输。TaskManager的网络组件首先从缓冲buffer中收集records,然后再发送。也就是说,records并不是一个接一个的发送,而是先放入缓冲,然后再以ba
阅读全文
posted @ 2019-05-30 15:04 ZacksTang
阅读(3937)
评论(0)
推荐(0)
2019年5月28日
Hive文件与记录格式
摘要: 1. Hive文件与记录格式 Create table 有多种用法,例如STORED AS SEQUENCEFILE, ROW FORMAT DELIMITED, SERDE, INPUTFORMAT, OUTPUTFORMAT 这些语法。 某些语法是其他语法的快捷用法,例如: 语法 STORED
阅读全文
posted @ 2019-05-28 20:36 ZacksTang
阅读(2826)
评论(0)
推荐(0)
上一页
1
···
7
8
9
10
11
12
13
14
15
下一页
公告