Fork me on GitHub

03 2020 档案

摘要:1. 状态一致性 当在分布式系统中引入状态时,自然也引入了一致性问题。一致性实际上是"正确性级别"的另一种说法,也就是说在成功处理故障并恢复之后得到的结果,与没有发生任何故障时得到的结果相比,前者到底有多 正确?举例来说,假设要对最近一小时登录的用户计数。在系统经历故障之后,计数结果是多少?如果有偏 阅读全文
posted @ 2020-03-25 23:55 kris12 阅读(2079) 评论(0) 推荐(0) 编辑
摘要:一致性检查点(checkpoint) 从检查点恢复状态 Flink检查点算法 保存点(save point) 1. 一致性检查点(checkpoint) Flink--有状态的流式处理 如上图sum_even (2+4),sum_odd(1 + 3 + 5),5这个数据之前的都处理完了,就出保存一个 阅读全文
posted @ 2020-03-25 23:54 kris12 阅读(795) 评论(0) 推荐(0) 编辑
摘要:窗口的第一个时间窗口是如何定义的呢?查看源码: 滑动窗口: 这里的offset是用来指定时间戳的时区的,timestamp(1970年1月1号的毫秒数,默认是格林威治0时区的时间),北京时间是东八区,我们的时间比他们早8h,如果要跟他们标准时间统一的话offset应该是 -8;但在国内无所谓的,默认 阅读全文
posted @ 2020-03-25 23:53 kris12 阅读(1431) 评论(0) 推荐(0) 编辑
摘要:ProcessFunction API 之前的转换算子 是无法访问事件的时间戳信息和 水位线 信息的。而这在一些应用场景下极为重要。例如 MapFunction 这样的 map 转换算子就无法访问时间戳或者当前事件的事件时间。基于此, DataStream API 提供了一系列的 Low Level 阅读全文
posted @ 2020-03-24 15:03 kris12 阅读(1535) 评论(0) 推荐(1) 编辑
摘要:状态后端(State Backends) 每传入一条数据,有状态的算子任务都会读取和更新状态; 由于有效的状态访问对于处理数据的低延迟至关重要,因此每个并行任务都会在本地内存维护其状态,以确保快速的状态访问。 状态的存储、访问以及维护,由一个可插入的组件决定,这个组件就叫做状态后端(State Ba 阅读全文
posted @ 2020-03-23 23:39 kris12 阅读(4358) 评论(0) 推荐(0) 编辑
摘要:Yarn用户资源隔离配置,主要使用 Yarn动态资源池(dynamic resource pool) _ 对YARN应用程序进行资源和策略分配的池。(Impala资源也可以动态管理)_动态资源池允许安排和分配用户访问特定池,用来执行YARN应用程序。如果一个池的资源未被使用,它可以被占用(preem 阅读全文
posted @ 2020-03-21 09:27 kris12 阅读(5295) 评论(0) 推荐(1) 编辑

levels of contents
点击右上角即可分享
微信分享提示