摘要:
状态(State)与一致性模型 接下来我们转向另一个在流处理中十分重要的点:状态(state)。状态在数据处理中是无处不在的。为了产生一个结果,函数一般会聚合某个时间段内(或是一定数量的)events的状态信息(例如计算聚合值,或是发现一个模式),有状态的 operators使用流的输入事件以及内部 阅读全文
摘要:
4. 时间语义(Time Semantics) 这章我们会介绍时间语义,以及在流中,对于时间的各种不同的概念的描述。同时我们也会讨论一个流处理器在事件乱序的情况下,如何能提供精准的结果,以及如何使用流对历史events进行处理。 一分钟的含义 假设我们要持续的对流计算并生成结果,例如每一分钟。这里的 阅读全文
摘要:
3. 数据流操作 流处理引擎一般会提供一组内置的操作,用于对流做消费、转换,以及输出。接下来我们介绍一下最常见的流操作。 操作分为无状态的(stateless)与有状态的(stateful)。无状态的操作不包含任何内部状态。也就是说,处理此event时,并不需要任何其他历史event的信息,也不需要 阅读全文