Flink_基础架构信息
几个重要的特新
1、Checkpoint,这个机制保证了Flink分布式的语义一致
2、有关Flink分布式,流处理的话题
似乎在大数据的领域中,做离线数据处理是很平常的事情
流、批处理很适合这种生产环境
批处理的特点是有界、持久、大量,批处理非常适合需要访问全套记录才能完成的计算工作,一般用于离线统计。
流处理的特点是无界、实时,流处理方式无需针对整个数据集执行操作,而是对通过系统传输的每个数据项执行操作,一般用于实时统计。
3.算子
这是flink中的一些基本运算单元,可以理解为函数模块,大致分为以下的模块
a.数据读取
b.数据转换
c.数据输出
其中数据转换是重点部分,大致上可以实现类似数据的左联右联,map对象映射
4.有关实时性(时延)
实时性也是一个被重点提及的部分。
使用了类似网络协议的动态窗口机制
时间点被严格分为、数据产生、数据进入flink、数据输出