1、Spark简介

spark是什么?

spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎

spark和hadoop

spark出现的时间相对较晚,主要功能主要用于数据计算,可以认为是hadoop的升级版本

一次性数据计算

框架在处理数据的时候,会从存储设备种读取数据,进行逻辑操作,然后将处理的结果重新存储到介质中

spark和hadoop的差异

spark和hadoop的根本差异是多个作业之间的数据通信问题:spark多个作业之间数据通信是基于内存,而hadoop是基于磁盘

spark核心模块

  1. spark core:spark core种提供了spark最基础最核心的功能,spark其他的功能都是在它的基础上进行扩展的
  2. spark sql:spark sql是spark用来操作结构化数据的组件,通过spark sql,用户可以使用sql或者apache hive版本的sql方言(HQL)来查询数据
  3. spark streaming:spark streaming是spark平台上针对实时数据进行流式计算的组件,提供了丰富的处理数据流的API
  4. spark MLib:MLlib是spark提供的一个机器学习算法库
  5. spark GraphX:GraphX是spark面向图计算提供的框架与算法库
posted @ 2022-01-27 14:23  第厘  阅读(176)  评论(0编辑  收藏  举报