大数据学习路线

序言

在学习大数据之前，先要了解他解决了什么问题，能给我们带来什么价值。

大数据体系

第一阶段：Linux和高并发

第二阶段：Hadoop生态体系

第三阶段：Strom流式计算

第四阶段：Spark计算框架体系

第五阶段：机器学习和算法体系

第六阶段：Flink实时计算体系

第七阶段：平台架构师课程体系

Hadoop、Storm、Spark、Flink的区别

在开源世界里， Apache Storm 项目（以下简称 Storm）是流处理先锋。 Storm 最早由 Nathan Marz 和创业公司 BackType（后来被 Twitter 收购）的一个团队开发，后来才被 Apache 软件基金会接纳。 Storm 提供了低延迟的流处理，但是它为实时性付出了一些代价：很难实现高吞吐，并且其正确性没能达到通常所需的水平。换句话说，它并不能保证 exactly-once；即便是它能够保证的正确性级别，其开销也相当大。

HADOOP和spark

spark会替代Hadoop的一部分，会替代Hadoop的计算框架，如mapReduce、Hive查询引擎，但spark本身不提供存储，所以spark不能完全替代Hadoop。

Spark被认为是大数据的3G，而Flink则被视为大数据的4G。

Storm和spark

通常在对实时性要求特别高，而且实时数据量不稳定，比如在白天有高峰期的情况下，可以选择使用Storm。

但是如果是对实时性要求一般，允许1秒的准实时处理，而且不要求动态调整并行度的话，选择Spark Streaming是更好的选择。

资料

尚学堂大数据

posted @ 2016-07-17 13:10 ~沐风阅读(301) 评论(0) 收藏举报

刷新页面返回顶部

沐风

大数据学习路线

序言

大数据体系

Hadoop、Storm、Spark、Flink的区别

资料

公告