ZacksTang

2019年5月30日

摘要： 3. 事件-时间（Event-Time）处理在“时间语义”中，我们强调了在流处理应用中时间语义的重要性，并解释了处理时间与事件时间的不同点。处理时间较好理解，因为它基于本地机器的时间，它产生的是有点任意的、不一致的、以及无法复现的结果。而事件时间的语义产生的是可复现的、一致性的结果，它对于很多流处阅读全文

posted @ 2019-05-30 20:36 ZacksTang 阅读(8124) 评论(0) 推荐(1) 编辑

Flink架构（二）- Flink中的数据传输

摘要： 2. Flink中的数据传输在一个运行的application中，它的tasks在持续交换数据。TaskManager负责做数据传输。TaskManager的网络组件首先从缓冲buffer中收集records，然后再发送。也就是说，records并不是一个接一个的发送，而是先放入缓冲，然后再以ba 阅读全文

posted @ 2019-05-30 15:04 ZacksTang 阅读(3790) 评论(0) 推荐(0) 编辑

2019年5月28日

Hive文件与记录格式

摘要： 1. Hive文件与记录格式 Create table 有多种用法，例如STORED AS SEQUENCEFILE, ROW FORMAT DELIMITED, SERDE, INPUTFORMAT, OUTPUTFORMAT 这些语法。某些语法是其他语法的快捷用法，例如：语法 STORED 阅读全文

posted @ 2019-05-28 20:36 ZacksTang 阅读(2739) 评论(0) 推荐(0) 编辑

2019年5月27日

Flink架构（一）- 系统架构

摘要： 1. 系统架构 Flink是一个分布式系统，用于有状态的并行数据流处理。也就是说，Flink会分布式地运行在多个机器上。在分布式系统中，常见的挑战有：如何对集群中的资源进行分配与管理、协调进程、数据存储的高可用、以及异常恢复。 Flink自身并未实现这些功能，而仅关注在它自身的核心功能 - 分布式数阅读全文

posted @ 2019-05-27 20:01 ZacksTang 阅读(3745) 评论(0) 推荐(0) 编辑

2019年5月11日

Flink流处理（五）- 状态与一致性模型

摘要：状态（State）与一致性模型接下来我们转向另一个在流处理中十分重要的点：状态（state）。状态在数据处理中是无处不在的。为了产生一个结果，函数一般会聚合某个时间段内（或是一定数量的）events的状态信息（例如计算聚合值，或是发现一个模式），有状态的 operators使用流的输入事件以及内部阅读全文

posted @ 2019-05-11 20:56 ZacksTang 阅读(1309) 评论(0) 推荐(0) 编辑

Flink流处理（四）- 时间语义

摘要： 4. 时间语义（Time Semantics）这章我们会介绍时间语义，以及在流中，对于时间的各种不同的概念的描述。同时我们也会讨论一个流处理器在事件乱序的情况下，如何能提供精准的结果，以及如何使用流对历史events进行处理。一分钟的含义假设我们要持续的对流计算并生成结果，例如每一分钟。这里的阅读全文

posted @ 2019-05-11 14:52 ZacksTang 阅读(2129) 评论(0) 推荐(0) 编辑

Flink流处理（三）- 数据流操作

摘要： 3. 数据流操作流处理引擎一般会提供一组内置的操作，用于对流做消费、转换，以及输出。接下来我们介绍一下最常见的流操作。操作分为无状态的（stateless）与有状态的（stateful）。无状态的操作不包含任何内部状态。也就是说，处理此event时，并不需要任何其他历史event的信息，也不需要阅读全文

posted @ 2019-05-11 09:02 ZacksTang 阅读(4780) 评论(0) 推荐(0) 编辑

2019年5月10日

Flink流处理（二）- 流处理基本概念

摘要： 1. Dataflow Programming 在讨论流处理的基本概念之前，我们首先介绍一下数据流编程（dataflow programming）的基本概念与术语。数据流图数据流程序一般在由数据流图表示，数据流图描述了数据如何在操作之间流动。在数据流图中，节点被称为operator，代表计算；边阅读全文

posted @ 2019-05-10 09:20 ZacksTang 阅读(2674) 评论(0) 推荐(0) 编辑

2019年5月9日

Flink流处理（一）- 状态流处理简介

摘要： 1. Flink 简介 Flink 是一个分布式流处理器，提供直观且易于使用的API，以供实现有状态的流处理应用。它能够以fault-tolerant的方式高效地运行在大规模系统中。流处理技术在当今地位愈发重要，因为它为很多业务场景提供了非常优秀的解决方案，例如数据分析，ETL，事务应用等。 2. 阅读全文

posted @ 2019-05-09 17:58 ZacksTang 阅读(5270) 评论(0) 推荐(0) 编辑

2019年5月5日

YARN High Availablity

摘要： 1. RM Failover ResourceManager HA 由一个Active/Standby 架构实现：在任何时间点，仅有一个RM是Active，其他一个（或多个）RM节点处于Standby 模式，在Active RM发生故障后，Standby RM 取代它并接管Active的工作。触发转阅读全文

posted @ 2019-05-05 13:42 ZacksTang 阅读(888) 评论(0) 推荐(0) 编辑

公告