wqy1027

eeee

 

Spark Streaming

Spark Streaming

1、流处理和批处理

 

 

1,流处理处理过程

 

数据采集(实时采集)工具:flume

数据先放到消息队列做缓冲,第一步往第二步放数据的过程叫做生产,第三步从第二部取数据的过程叫做消费,mq中的数据有索引

 MQ:消息队列(message queue):kafka  特点:先进先出

计算框架:flink、spark streaming、

通过socket模拟这个过程

 

2,批处理过程

 

数据采集读到的数据先到mq(消息队列)再到db(hdfs),用离线框架去读数据

 消息队列一般会保存7天

 

2、离线计算和实时计算的特点

两者对比

 

 

实时计算面对的挑战?

 

 

 

 

posted on 2022-11-01 19:59  不想写代码的小玉  阅读(28)  评论(0编辑  收藏  举报

导航