大数据学习路线
序言
在学习大数据之前,先要了解他解决了什么问题,能给我们带来什么价值。
大数据体系
第一阶段:Linux和高并发
第二阶段:Hadoop生态体系
第三阶段:Strom流式计算
第四阶段:Spark计算框架体系
第五阶段:机器学习和算法体系
第六阶段:Flink实时计算体系
第七阶段:平台架构师课程体系
Hadoop、Storm、Spark、Flink的区别
在开源世界里, Apache Storm 项目(以下简称 Storm)是流处理先锋。 Storm 最早由 Nathan Marz 和创业公司 BackType(后来被 Twitter 收购)的一个团队开发,后来 才被 Apache 软件基金会接纳。 Storm 提供了低延迟的流处理,但是它为实 时性付出了一些代价:很难实现高吞吐,并且其正确性没能达到通常所需 的水平。换句话说,它并不能保证 exactly-once;即便是它能够保证的正确 性级别,其开销也相当大。
HADOOP和spark
spark会替代Hadoop的一部分,会替代Hadoop的计算框架,如mapReduce、Hive查询引擎,但spark本身不提供存储,所以spark不能完全替代Hadoop。
Spark被认为是大数据的3G,而Flink则被视为大数据的4G。
Storm和spark
通常在对实时性要求特别高,而且实时数据量不稳定,比如在白天有高峰期的情况下,可以选择使用Storm。
但是如果是对实时性要求一般,允许1秒的准实时处理,而且不要求动态调整并行度的话,选择Spark Streaming是更好的选择。