流处理和批处理
- 批处理 (批处理和流处理介绍)
-
概念:在批处理中,新到达的数据元素将被收集到一个组中。 然后,在将来的某个时间对整个组进行批处理。 处理每个组的确切时间可以通过多种方式来确定。 例如,可以根据计划的时间间隔(例如,每小时)处理数据,也可以在到达特定数量的数据时触发数据处理,或者作为某些其他事件的结果进行处理。
-
批处理的一个示例:是通常在选举中计算选票的方式。 投票时不输入选票,而是在同一时间以一个批次全部输入。
- 批处理的优点包括:
- 可以在方便的时间处理大量数据。
- 可以计划在计算机或系统可能处于空闲状态(如整夜)或在非高峰时间运行
-
- 流处理
- 概念
- 在流式处理中,每个新数据在到达时就会得到处理。 例如,数据引入本质上是一种流式处理进程。
- 流式处理过程是实时处理数据。 与批处理不同,不存在等待下一批要处理的数据的情况,而是将数据作为独立单位进行处理,不视为一次处理一个的批次。 在大多数连续生成新动态数据的情况下,流式数据处理非常有用。
- 流式处理数据的示例包括:
- 金融机构会实时跟踪股票市场的变化,计算风险值,并根据股票价格变动自动重新平衡投资组合。
- 在线游戏公司收集有关玩家游戏交互的实时数据,并将数据馈送到其游戏平台。 然后,它会实时分析数据,提供奖励和动态体验来吸引玩家。
- 一个房地产网站需要跟踪使用者的移动设备中的数据子集,并基于其地理位置对要访问的房产提供实时房产建议。
- 流处理非常适合需要实时响应的时间关键操作。 例如,监控建筑物烟雾和热量的系统需要触发警报并为门解锁,以便在发生火灾时居民能够立即逃离。
- 概念
- 流批一体大数据架构: