上一页 1 ··· 7 8 9 10 11 12 13 14 下一页
摘要: 3. 事件-时间(Event-Time)处理 在“时间语义”中,我们强调了在流处理应用中时间语义的重要性,并解释了处理时间与事件时间的不同点。处理时间较好理解,因为它基于本地机器的时间,它产生的是有点任意的、不一致的、以及无法复现的结果。而事件时间的语义产生的是可复现的、一致性的结果,它对于很多流处 阅读全文
posted @ 2019-05-30 20:36 ZacksTang 阅读(8124) 评论(0) 推荐(1) 编辑
摘要: 2. Flink中的数据传输 在一个运行的application中,它的tasks在持续交换数据。TaskManager负责做数据传输。TaskManager的网络组件首先从缓冲buffer中收集records,然后再发送。也就是说,records并不是一个接一个的发送,而是先放入缓冲,然后再以ba 阅读全文
posted @ 2019-05-30 15:04 ZacksTang 阅读(3790) 评论(0) 推荐(0) 编辑
摘要: 1. Hive文件与记录格式 Create table 有多种用法,例如STORED AS SEQUENCEFILE, ROW FORMAT DELIMITED, SERDE, INPUTFORMAT, OUTPUTFORMAT 这些语法。 某些语法是其他语法的快捷用法,例如: 语法 STORED 阅读全文
posted @ 2019-05-28 20:36 ZacksTang 阅读(2739) 评论(0) 推荐(0) 编辑
摘要: 1. 系统架构 Flink是一个分布式系统,用于有状态的并行数据流处理。也就是说,Flink会分布式地运行在多个机器上。在分布式系统中,常见的挑战有:如何对集群中的资源进行分配与管理、协调进程、数据存储的高可用、以及异常恢复。 Flink自身并未实现这些功能,而仅关注在它自身的核心功能 - 分布式数 阅读全文
posted @ 2019-05-27 20:01 ZacksTang 阅读(3745) 评论(0) 推荐(0) 编辑
摘要: 状态(State)与一致性模型 接下来我们转向另一个在流处理中十分重要的点:状态(state)。状态在数据处理中是无处不在的。为了产生一个结果,函数一般会聚合某个时间段内(或是一定数量的)events的状态信息(例如计算聚合值,或是发现一个模式),有状态的 operators使用流的输入事件以及内部 阅读全文
posted @ 2019-05-11 20:56 ZacksTang 阅读(1309) 评论(0) 推荐(0) 编辑
摘要: 4. 时间语义(Time Semantics) 这章我们会介绍时间语义,以及在流中,对于时间的各种不同的概念的描述。同时我们也会讨论一个流处理器在事件乱序的情况下,如何能提供精准的结果,以及如何使用流对历史events进行处理。 一分钟的含义 假设我们要持续的对流计算并生成结果,例如每一分钟。这里的 阅读全文
posted @ 2019-05-11 14:52 ZacksTang 阅读(2129) 评论(0) 推荐(0) 编辑
摘要: 3. 数据流操作 流处理引擎一般会提供一组内置的操作,用于对流做消费、转换,以及输出。接下来我们介绍一下最常见的流操作。 操作分为无状态的(stateless)与有状态的(stateful)。无状态的操作不包含任何内部状态。也就是说,处理此event时,并不需要任何其他历史event的信息,也不需要 阅读全文
posted @ 2019-05-11 09:02 ZacksTang 阅读(4780) 评论(0) 推荐(0) 编辑
摘要: 1. Dataflow Programming 在讨论流处理的基本概念之前,我们首先介绍一下数据流编程(dataflow programming)的基本概念与术语。 数据流图 数据流程序一般在由数据流图表示,数据流图描述了数据如何在操作之间流动。在数据流图中,节点被称为operator,代表计算;边 阅读全文
posted @ 2019-05-10 09:20 ZacksTang 阅读(2674) 评论(0) 推荐(0) 编辑
摘要: 1. Flink 简介 Flink 是一个分布式流处理器,提供直观且易于使用的API,以供实现有状态的流处理应用。它能够以fault-tolerant的方式高效地运行在大规模系统中。 流处理技术在当今地位愈发重要,因为它为很多业务场景提供了非常优秀的解决方案,例如数据分析,ETL,事务应用等。 2. 阅读全文
posted @ 2019-05-09 17:58 ZacksTang 阅读(5270) 评论(0) 推荐(0) 编辑
摘要: 1. RM Failover ResourceManager HA 由一个Active/Standby 架构实现:在任何时间点,仅有一个RM是Active,其他一个(或多个)RM节点处于Standby 模式,在Active RM发生故障后,Standby RM 取代它并接管Active的工作。触发转 阅读全文
posted @ 2019-05-05 13:42 ZacksTang 阅读(888) 评论(0) 推荐(0) 编辑
上一页 1 ··· 7 8 9 10 11 12 13 14 下一页