大数据学习路线

序言

在学习大数据之前,先要了解他解决了什么问题,能给我们带来什么价值。

 

大数据体系

第一阶段:Linux和高并发


第二阶段:Hadoop生态体系


第三阶段:Strom流式计算


第四阶段:Spark计算框架体系


第五阶段:机器学习和算法体系


第六阶段:Flink实时计算体系


第七阶段:平台架构师课程体系

 

Hadoop、Storm、Spark、Flink的区别

在开源世界里, Apache Storm 项目(以下简称 Storm)是流处理先锋。 Storm 最早由 Nathan Marz 和创业公司 BackType(后来被 Twitter 收购)的一个团队开发,后来 才被 Apache 软件基金会接纳。 Storm 提供了低延迟的流处理,但是它为实 时性付出了一些代价:很难实现高吞吐,并且其正确性没能达到通常所需 的水平。换句话说,它并不能保证 exactly-once;即便是它能够保证的正确 性级别,其开销也相当大。

HADOOP和spark

spark会替代Hadoop的一部分,会替代Hadoop的计算框架,如mapReduce、Hive查询引擎,但spark本身不提供存储,所以spark不能完全替代Hadoop。

Spark被认为是大数据的3G,而Flink则被视为大数据的4G。

Storm和spark

通常在对实时性要求特别高,而且实时数据量不稳定,比如在白天有高峰期的情况下,可以选择使用Storm。

但是如果是对实时性要求一般,允许1秒的准实时处理,而且不要求动态调整并行度的话,选择Spark Streaming是更好的选择。

资料

尚学堂大数据

posted @ 2016-07-17 13:10  ~沐风  阅读(271)  评论(0编辑  收藏  举报