《大数据技术原理与应用》学习

先看了11章Spark

逻辑回归，需要迭代多，所以尤其适用Spark，100多倍

企业的应用：

1. 批量数据处理（数分钟与数小时，ETL），比如MapReduce

2. 基于历史数据的交互查询，比如Impala，Hive还不是

3. 实时数据流处理，比如Storm。比如返利的实时数据，以前通过数据库备库方式来处理，扩展性差。

而Spark提供了一站式解决。

一句话概括RDD，分布式内存的一个抽象概念，提供了一种高度受限的共享内存模型。

是依据宽依赖、窄依赖，来划分stage。

Storm的优势：支持毫秒级别的流式计算。（只是秒级别的）。Storm专业成熟。

最流行的关于大数据最典型的三大框架：

Hadoop 批处理

Spark 实时批处理

Storm 流式计算

posted @ 2017-02-02 11:09 blcblc 阅读(381) 评论(0) 收藏举报

刷新页面返回顶部

笨鸟居士的博客