Spark基础

Spark核心组件:

Spark核心组件包含Spark的基本功能,有任务调度组件,内存管理组件,容错恢复组件,与存储系统交互的组件等。Spark核心组件提供了定义弹性分布式数据集(RDDs)的API,这组API是Spark主要的编程抽象。

RDDs表示分布在多个不同机器节点上,可以被并行处理的数据集合。Spark核心组件提供许多API来创建和操作这些集合。

  1. Spark SQL:Spark  SQL是Spark用来处理结构化数据的包。它使得可以想Hive查询语言(Hive Query Language, HQL)一样通过SQL语句来查询数据。
  2. Spark流 (Spark Streaming):
  3. MLlib: Spark包含一个叫做MLlib的关于机器学习的库。
  4. GraphX:GraphX是一个操作图(如社交网络的好友图)和执行基于图的并行计算的库。与Spark流和Spark  SQL类似,GraphX扩展了Spark RDD API ,允许我们用和每个节点和边绑定的任意属性来创建一个有向图。
  5. Cluster Managers  集群管理器:

 

posted @ 2015-09-22 12:59  xiaoguozi0218  阅读(69)  评论(0编辑  收藏  举报