【大数据-课程】高途-天翼云侯圣文-Day3-实时计算原理解析
〇、老师及课程介绍
一、今日内容
二、实时计算理论解析
1、什么是实时计算
微批处理、流式处理、实时计算
水流和车流的例子
spark streaming就是一种微批处理,水满了才处理,进入下一个地方
流式计算:没有等待
深入:红绿灯交替的场景是微批处理,就不是流式计算了
水流的场景是流式计算时:直饮机,自来水直接可以饮用,出水的过程没有停一停等一等
其他:水流、视频流、
2、数据处理的四大概念
实时:微批处理或流式处理,20%,要求高,trouble shooting比较难
离线:80%的工作量
3、实时处理的价值
例如:送餐
4、应用场景:风控、欺诈、反欺诈
三、批处理框架比较
1、三种框架
2、storm发展历程
storm基于推特的storm自研产生
不流行的原因:开发语言不常用,准确性低,吞吐能力
阿里基于java重现,开发了jstorm
3、Spark Streaming的发展历程
为了解决准确性问题,以及吞吐量提升的问题
由流处理,转为微批处理语言
4、flink的发展历程
欧洲,德国柏林的小松鼠
5、性能对比
四、Flink介绍
1、flink在阿里的应用
2、技术栈
云计算节省成本,例如喝牛奶
流批一体,可以实现流处理,也可以实现批处理
3、适用于所有人的编程模型
越往上,越方便,越高效
越到底层,越易于troubleshooting
4、Flink核心内容-四个顶梁柱
查询状态
水印标签就是等待的时间,为了解决网络延迟带来的影响-相当于黄灯
5、无界数据流中的有限数据集
现象&技术方式-分段数汽车
数据或时间到了触发计算(汽车通行)
五、实战技术
1、技术和生活举例了解三个内容
固态水变液态水
sink:下沉
2、source
MySQL构成数据源
3、transform
通过水印标签watermark,实现了准确性
事件时间、摄入时间、处理时间
事件时间是客户端发生的时间
摄入时间是处理节点接收到的时间
处理时间是服务开始处理的时间
4、sink,把数据推送给谁
5、其他
val=value,是常量
var=variable,是变量
6、课程内容
本文来自博客园,作者:哥们要飞,转载请注明原文链接:https://www.cnblogs.com/liujinhui/p/15929262.html