大数据学习路线
序言
在学习大数据之前,先要了解他解决了什么问题,能给我们带来什么价值。
大数据体系
第一阶段:Linux和高并发
第二阶段:Hadoop生态体系
第三阶段:Strom流式计算
第四阶段:Spark计算框架体系
第五阶段:机器学习和算法体系
第六阶段:Flink实时计算体系
第七阶段:平台架构师课程体系
Hadoop、Storm、Spark、Flink的区别
在开源世界里, Apache Storm 项目(以下简称 Storm)是流处理先锋。 Storm 最早由 Nathan Marz 和创业公司 BackType(后来被 Twitter 收购)的一个团队开发,后来 才被 Apache 软件基金会接纳。 Storm 提供了低延迟的流处理,但是它为实 时性付出了一些代价:很难实现高吞吐,并且其正确性没能达到通常所需 的水平。换句话说,它并不能保证 exactly-once;即便是它能够保证的正确 性级别,其开销也相当大。
HADOOP和spark
spark会替代Hadoop的一部分,会替代Hadoop的计算框架,如mapReduce、Hive查询引擎,但spark本身不提供存储,所以spark不能完全替代Hadoop。
Spark被认为是大数据的3G,而Flink则被视为大数据的4G。
Storm和spark
通常在对实时性要求特别高,而且实时数据量不稳定,比如在白天有高峰期的情况下,可以选择使用Storm。
但是如果是对实时性要求一般,允许1秒的准实时处理,而且不要求动态调整并行度的话,选择Spark Streaming是更好的选择。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· SQL Server 2025 AI相关能力初探
· Linux系列:如何用 C#调用 C方法造成内存泄露
· AI与.NET技术实操系列(二):开始使用ML.NET
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· 单线程的Redis速度为什么快?
· SQL Server 2025 AI相关能力初探
· AI编程工具终极对决:字节Trae VS Cursor,谁才是开发者新宠?
· 展开说说关于C#中ORM框架的用法!