《Spark快速大数据分析》

1、Spark是一个用来实现快速而通用的集群计算的平台。

2、Spark项目包含多个紧密集成的组件。有:

Spark Core 实现Spark的基本功能,包含任务调度、内存管理、错误恢复、与存储系统交互等模块。

Spark SQL 是Spark用来操作结构化数据的程序包。

Spark Streaming 是Spark提供的对实时数据进行流式计算的组件。

MLlib 是Spark包含的一个提供常见的机器学习功能的程序库。

GraphX 是用来操作图计算的程序库。

 

 

 

 

 

posted @ 2020-09-06 16:56  Andy_George  阅读(442)  评论(0编辑  收藏  举报