流式处理框架摘要大纲
一、流式处理框架对比
关注点:运行时和编程模型、容错性、状态管理、消息传输保障等
二、Spark
1、Spark基础篇
- Spark及生态圈概述:包括spark生态系统介绍,以及对应特点、适用场景、Spark与hadoop关系等
- Spark安装部署
2、Spark核心篇
- Spark编程模型:
RDD概述
RDD实现(作业调度及stage划分、RDD依赖关系、解析器集成、内存管理、检查点支持、多用户管理),
RDD分区
RDD操作分类
RDD编程接口说明
- Spark核心原理:包括运行流程图、常用术语、执行原理、调度算法、容错及HA、监控
- Spark存储原理:存储整体架构、存储级别、读写数据过程;shuffle分析、序列化和压缩、共享变量(广播变量、累加器)
- Spark运行架构:运行架构总体介绍及各种运行模式说明
3、Spark组件篇
- Spark-SQL
- Spark-Streaming
- Spark-MLib
- Spark-GraphX
- Spark-R
4、Spark实践篇
- Spark示例
1、
状态管理
三、Flink
posted on 2020-01-08 11:26 心有多大,世界就有多大 阅读(145) 评论(0) 编辑 收藏 举报