开发笔记 -- 大数据技术栈 (2) - 实时&架构

一、kafka

支持大数据量高并发的可靠性分布式消息系统

* kafka 官网

https://kafka.apache.org/

* kafka认证机制

 http://www.javashuo.com/article/p-mpqjhthv-cw.html

 

二、spark

大数据计算引擎(微批)

* 完善的开发文档

http://spark.apachecn.org/#/

* spark部署模式

spark支持local,on-yarn(yarn-client, yarn-cluster)等部署模式

* spark on yarn 模式

https://www.cnblogs.com/ITtangtang/p/7967386.html

 * spark任务job-stage-task关系

 

三、flink 

大数据计算引擎(实时消息维度)

* 完善的开发文档

https://nightlies.apache.org/flink/flink-docs-stable/zh/

* 深度解析博文

https://baijiahao.baidu.com/s?id=1716001230069329740&wfr=spider&for=pc

* 实时消息处理需要注意消息乱序到达问题:

官方方案: window+writermark 

 

 四、架构演进

离线架构

 

lambda架构
kappa架构

 

 * Alibaba大数据实践: https://blog.csdn.net/BeiisBei/article/details/106167009

posted @ 2022-05-24 15:19  yangdq  阅读(97)  评论(0编辑  收藏  举报