会员
周边
新闻
博问
闪存
赞助商
YouClaw
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
ZacksTang
博客园
首页
新随笔
联系
管理
订阅
上一页
1
···
8
9
10
11
12
13
14
15
下一页
2019年5月27日
Flink架构(一)- 系统架构
摘要: 1. 系统架构 Flink是一个分布式系统,用于有状态的并行数据流处理。也就是说,Flink会分布式地运行在多个机器上。在分布式系统中,常见的挑战有:如何对集群中的资源进行分配与管理、协调进程、数据存储的高可用、以及异常恢复。 Flink自身并未实现这些功能,而仅关注在它自身的核心功能 - 分布式数
阅读全文
posted @ 2019-05-27 20:01 ZacksTang
阅读(3883)
评论(0)
推荐(0)
2019年5月11日
Flink流处理(五)- 状态与一致性模型
摘要: 状态(State)与一致性模型 接下来我们转向另一个在流处理中十分重要的点:状态(state)。状态在数据处理中是无处不在的。为了产生一个结果,函数一般会聚合某个时间段内(或是一定数量的)events的状态信息(例如计算聚合值,或是发现一个模式),有状态的 operators使用流的输入事件以及内部
阅读全文
posted @ 2019-05-11 20:56 ZacksTang
阅读(1359)
评论(0)
推荐(0)
Flink流处理(四)- 时间语义
摘要: 4. 时间语义(Time Semantics) 这章我们会介绍时间语义,以及在流中,对于时间的各种不同的概念的描述。同时我们也会讨论一个流处理器在事件乱序的情况下,如何能提供精准的结果,以及如何使用流对历史events进行处理。 一分钟的含义 假设我们要持续的对流计算并生成结果,例如每一分钟。这里的
阅读全文
posted @ 2019-05-11 14:52 ZacksTang
阅读(2185)
评论(0)
推荐(0)
Flink流处理(三)- 数据流操作
摘要: 3. 数据流操作 流处理引擎一般会提供一组内置的操作,用于对流做消费、转换,以及输出。接下来我们介绍一下最常见的流操作。 操作分为无状态的(stateless)与有状态的(stateful)。无状态的操作不包含任何内部状态。也就是说,处理此event时,并不需要任何其他历史event的信息,也不需要
阅读全文
posted @ 2019-05-11 09:02 ZacksTang
阅读(4901)
评论(0)
推荐(0)
2019年5月10日
Flink流处理(二)- 流处理基本概念
摘要: 1. Dataflow Programming 在讨论流处理的基本概念之前,我们首先介绍一下数据流编程(dataflow programming)的基本概念与术语。 数据流图 数据流程序一般在由数据流图表示,数据流图描述了数据如何在操作之间流动。在数据流图中,节点被称为operator,代表计算;边
阅读全文
posted @ 2019-05-10 09:20 ZacksTang
阅读(2822)
评论(0)
推荐(0)
2019年5月9日
Flink流处理(一)- 状态流处理简介
摘要: 1. Flink 简介 Flink 是一个分布式流处理器,提供直观且易于使用的API,以供实现有状态的流处理应用。它能够以fault-tolerant的方式高效地运行在大规模系统中。 流处理技术在当今地位愈发重要,因为它为很多业务场景提供了非常优秀的解决方案,例如数据分析,ETL,事务应用等。 2.
阅读全文
posted @ 2019-05-09 17:58 ZacksTang
阅读(5415)
评论(0)
推荐(0)
2019年5月5日
YARN High Availablity
摘要: 1. RM Failover ResourceManager HA 由一个Active/Standby 架构实现:在任何时间点,仅有一个RM是Active,其他一个(或多个)RM节点处于Standby 模式,在Active RM发生故障后,Standby RM 取代它并接管Active的工作。触发转
阅读全文
posted @ 2019-05-05 13:42 ZacksTang
阅读(963)
评论(0)
推荐(0)
2019年5月4日
HDFS High Availability
摘要: 1. 背景 在Hadoop 2.0.0 之前,namenode 一直是单节点运行,存在单点故障。若是在namenode 节点出现问题,则会导致整个hdfs 集群均不可用。直到namenode进程恢复,或是在另一备用节点上启动namenode进程。 HDFS 的高可用(high availabilit
阅读全文
posted @ 2019-05-04 15:40 ZacksTang
阅读(1343)
评论(0)
推荐(0)
2019年5月1日
Hadoop TextInputFormat
摘要: 1. TextInputFortmat TextInputFormat是默认的InputFormat。每条记录是一行输入。Key是LongWritable类型,存储该行在整个文件中的字节偏移量(不是行数),值是这行的内容,为一个Text对象。 例如输入文件为: grunt> cat test2 12
阅读全文
posted @ 2019-05-01 10:30 ZacksTang
阅读(1891)
评论(0)
推荐(0)
2019年4月28日
Hadoop文件分片与InputFormat
摘要: 1. Mapper 与 Reducer 数量 对于一个默认的MapReduce Job 来说,map任务的数量等于输入文件被划分成的分块数,这个取决于输入文件的大小以及文件块的大小(如果此文件在 HDFS中)。但是对于 reduce的任务,并不会自动决定reducer数目的大小,若未指定,则默认为1
阅读全文
posted @ 2019-04-28 14:55 ZacksTang
阅读(1214)
评论(0)
推荐(0)
上一页
1
···
8
9
10
11
12
13
14
15
下一页
公告