4-1日报

Spark的适用场景

目前大数据处理场景有以下几个类型：

1. 复杂的批量处理（Batch Data Processing），偏重点在于处理海量数据的能力，至于处理速度可忍受，通常的时间可能是在数十分钟到数小时；

2. 基于历史数据的交互式查询（Interactive Query），通常的时间在数十秒到数十分钟之间

3. 基于实时数据流的数据处理（Streaming Data Processing），通常在数百毫秒到数秒之间

目前对以上三种场景需求都有比较成熟的处理框架，第一种情况可以用Hadoop的MapReduce来进行批量海量数据处理，第二种情况可以Impala进行交互式查询，对于第三中情况可以用Storm分布式处理框架处理实时流式数据。以上三者都是比较独立，各自一套维护成本比较高，而Spark的出现能够一站式平台满意以上需求。

通过以上分析，总结Spark场景有以下几个：

lSpark是基于内存的迭代计算框架，适用于需要多次操作特定数据集的应用场合。需要反复操作的次数越多，所需读取的数据量越大，受益越大，数据量小但是计算密集度较大的场合，受益就相对较小

l由于RDD的特性，Spark不适用那种异步细粒度更新状态的应用，例如web服务的存储或者是增量的web爬虫和索引。就是对于那种增量修改的应用模型不适合

l数据量不是特别大，但是要求实时统计分析需求

posted @ 2022-04-01 14:25 软工新人阅读(13) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· 4-2日报

· 3-27日报

· 大三寒假学习 spark学习 spark生态系统

· 全面解析并行计算框架 Spark，以及和 Python 的对接

· Hadoop和Spark场景、性能比较

历史上的今天：
2021-04-01 每日总结

公告

昵称：软工新人
园龄： 4年8个月
粉丝： 0
关注： 0

+加关注

2025年3月

日

一

二

三

四

五

六

软工新人

4-1日报

Spark的适用场景

公告

搜索

常用链接

随笔档案

阅读排行榜

推荐排行榜