上一页 1 ··· 7 8 9 10 11 12 13 14 下一页
摘要: 1. 系统架构 Flink是一个分布式系统,用于有状态的并行数据流处理。也就是说,Flink会分布式地运行在多个机器上。在分布式系统中,常见的挑战有:如何对集群中的资源进行分配与管理、协调进程、数据存储的高可用、以及异常恢复。 Flink自身并未实现这些功能,而仅关注在它自身的核心功能 - 分布式数 阅读全文
posted @ 2019-05-27 20:01 ZacksTang 阅读(3717) 评论(0) 推荐(0) 编辑
摘要: 状态(State)与一致性模型 接下来我们转向另一个在流处理中十分重要的点:状态(state)。状态在数据处理中是无处不在的。为了产生一个结果,函数一般会聚合某个时间段内(或是一定数量的)events的状态信息(例如计算聚合值,或是发现一个模式),有状态的 operators使用流的输入事件以及内部 阅读全文
posted @ 2019-05-11 20:56 ZacksTang 阅读(1297) 评论(0) 推荐(0) 编辑
摘要: 4. 时间语义(Time Semantics) 这章我们会介绍时间语义,以及在流中,对于时间的各种不同的概念的描述。同时我们也会讨论一个流处理器在事件乱序的情况下,如何能提供精准的结果,以及如何使用流对历史events进行处理。 一分钟的含义 假设我们要持续的对流计算并生成结果,例如每一分钟。这里的 阅读全文
posted @ 2019-05-11 14:52 ZacksTang 阅读(2113) 评论(0) 推荐(0) 编辑
摘要: 3. 数据流操作 流处理引擎一般会提供一组内置的操作,用于对流做消费、转换,以及输出。接下来我们介绍一下最常见的流操作。 操作分为无状态的(stateless)与有状态的(stateful)。无状态的操作不包含任何内部状态。也就是说,处理此event时,并不需要任何其他历史event的信息,也不需要 阅读全文
posted @ 2019-05-11 09:02 ZacksTang 阅读(4754) 评论(0) 推荐(0) 编辑
摘要: 1. Dataflow Programming 在讨论流处理的基本概念之前,我们首先介绍一下数据流编程(dataflow programming)的基本概念与术语。 数据流图 数据流程序一般在由数据流图表示,数据流图描述了数据如何在操作之间流动。在数据流图中,节点被称为operator,代表计算;边 阅读全文
posted @ 2019-05-10 09:20 ZacksTang 阅读(2642) 评论(0) 推荐(0) 编辑
摘要: 1. Flink 简介 Flink 是一个分布式流处理器,提供直观且易于使用的API,以供实现有状态的流处理应用。它能够以fault-tolerant的方式高效地运行在大规模系统中。 流处理技术在当今地位愈发重要,因为它为很多业务场景提供了非常优秀的解决方案,例如数据分析,ETL,事务应用等。 2. 阅读全文
posted @ 2019-05-09 17:58 ZacksTang 阅读(5195) 评论(0) 推荐(0) 编辑
摘要: 1. RM Failover ResourceManager HA 由一个Active/Standby 架构实现:在任何时间点,仅有一个RM是Active,其他一个(或多个)RM节点处于Standby 模式,在Active RM发生故障后,Standby RM 取代它并接管Active的工作。触发转 阅读全文
posted @ 2019-05-05 13:42 ZacksTang 阅读(866) 评论(0) 推荐(0) 编辑
摘要: 1. 背景 在Hadoop 2.0.0 之前,namenode 一直是单节点运行,存在单点故障。若是在namenode 节点出现问题,则会导致整个hdfs 集群均不可用。直到namenode进程恢复,或是在另一备用节点上启动namenode进程。 HDFS 的高可用(high availabilit 阅读全文
posted @ 2019-05-04 15:40 ZacksTang 阅读(1152) 评论(0) 推荐(0) 编辑
摘要: 1. TextInputFortmat TextInputFormat是默认的InputFormat。每条记录是一行输入。Key是LongWritable类型,存储该行在整个文件中的字节偏移量(不是行数),值是这行的内容,为一个Text对象。 例如输入文件为: grunt> cat test2 12 阅读全文
posted @ 2019-05-01 10:30 ZacksTang 阅读(1755) 评论(0) 推荐(0) 编辑
摘要: 1. Mapper 与 Reducer 数量 对于一个默认的MapReduce Job 来说,map任务的数量等于输入文件被划分成的分块数,这个取决于输入文件的大小以及文件块的大小(如果此文件在 HDFS中)。但是对于 reduce的任务,并不会自动决定reducer数目的大小,若未指定,则默认为1 阅读全文
posted @ 2019-04-28 14:55 ZacksTang 阅读(1116) 评论(0) 推荐(0) 编辑
上一页 1 ··· 7 8 9 10 11 12 13 14 下一页