ZacksTang

2019年5月27日

摘要： 1. 系统架构 Flink是一个分布式系统，用于有状态的并行数据流处理。也就是说，Flink会分布式地运行在多个机器上。在分布式系统中，常见的挑战有：如何对集群中的资源进行分配与管理、协调进程、数据存储的高可用、以及异常恢复。 Flink自身并未实现这些功能，而仅关注在它自身的核心功能 - 分布式数阅读全文

posted @ 2019-05-27 20:01 ZacksTang 阅读(3883) 评论(0) 推荐(0)

2019年5月11日

Flink流处理（五）- 状态与一致性模型

摘要：状态（State）与一致性模型接下来我们转向另一个在流处理中十分重要的点：状态（state）。状态在数据处理中是无处不在的。为了产生一个结果，函数一般会聚合某个时间段内（或是一定数量的）events的状态信息（例如计算聚合值，或是发现一个模式），有状态的 operators使用流的输入事件以及内部阅读全文

posted @ 2019-05-11 20:56 ZacksTang 阅读(1359) 评论(0) 推荐(0)

Flink流处理（四）- 时间语义

摘要： 4. 时间语义（Time Semantics）这章我们会介绍时间语义，以及在流中，对于时间的各种不同的概念的描述。同时我们也会讨论一个流处理器在事件乱序的情况下，如何能提供精准的结果，以及如何使用流对历史events进行处理。一分钟的含义假设我们要持续的对流计算并生成结果，例如每一分钟。这里的阅读全文

posted @ 2019-05-11 14:52 ZacksTang 阅读(2185) 评论(0) 推荐(0)

Flink流处理（三）- 数据流操作

摘要： 3. 数据流操作流处理引擎一般会提供一组内置的操作，用于对流做消费、转换，以及输出。接下来我们介绍一下最常见的流操作。操作分为无状态的（stateless）与有状态的（stateful）。无状态的操作不包含任何内部状态。也就是说，处理此event时，并不需要任何其他历史event的信息，也不需要阅读全文

posted @ 2019-05-11 09:02 ZacksTang 阅读(4901) 评论(0) 推荐(0)

2019年5月10日

Flink流处理（二）- 流处理基本概念

摘要： 1. Dataflow Programming 在讨论流处理的基本概念之前，我们首先介绍一下数据流编程（dataflow programming）的基本概念与术语。数据流图数据流程序一般在由数据流图表示，数据流图描述了数据如何在操作之间流动。在数据流图中，节点被称为operator，代表计算；边阅读全文

posted @ 2019-05-10 09:20 ZacksTang 阅读(2822) 评论(0) 推荐(0)

2019年5月9日

Flink流处理（一）- 状态流处理简介

摘要： 1. Flink 简介 Flink 是一个分布式流处理器，提供直观且易于使用的API，以供实现有状态的流处理应用。它能够以fault-tolerant的方式高效地运行在大规模系统中。流处理技术在当今地位愈发重要，因为它为很多业务场景提供了非常优秀的解决方案，例如数据分析，ETL，事务应用等。 2. 阅读全文

posted @ 2019-05-09 17:58 ZacksTang 阅读(5415) 评论(0) 推荐(0)

2019年5月5日

YARN High Availablity

摘要： 1. RM Failover ResourceManager HA 由一个Active/Standby 架构实现：在任何时间点，仅有一个RM是Active，其他一个（或多个）RM节点处于Standby 模式，在Active RM发生故障后，Standby RM 取代它并接管Active的工作。触发转阅读全文

posted @ 2019-05-05 13:42 ZacksTang 阅读(963) 评论(0) 推荐(0)

2019年5月4日

HDFS High Availability

摘要： 1. 背景在Hadoop 2.0.0 之前，namenode 一直是单节点运行，存在单点故障。若是在namenode 节点出现问题，则会导致整个hdfs 集群均不可用。直到namenode进程恢复，或是在另一备用节点上启动namenode进程。 HDFS 的高可用（high availabilit 阅读全文

posted @ 2019-05-04 15:40 ZacksTang 阅读(1343) 评论(0) 推荐(0)

2019年5月1日

Hadoop TextInputFormat

摘要： 1. TextInputFortmat TextInputFormat是默认的InputFormat。每条记录是一行输入。Key是LongWritable类型，存储该行在整个文件中的字节偏移量（不是行数），值是这行的内容，为一个Text对象。例如输入文件为： grunt> cat test2 12 阅读全文

posted @ 2019-05-01 10:30 ZacksTang 阅读(1891) 评论(0) 推荐(0)

2019年4月28日

Hadoop文件分片与InputFormat

摘要： 1. Mapper 与 Reducer 数量对于一个默认的MapReduce Job 来说，map任务的数量等于输入文件被划分成的分块数，这个取决于输入文件的大小以及文件块的大小（如果此文件在 HDFS中）。但是对于 reduce的任务，并不会自动决定reducer数目的大小，若未指定，则默认为1 阅读全文

posted @ 2019-04-28 14:55 ZacksTang 阅读(1214) 评论(0) 推荐(0)

公告