摘要:
SparkStreaming SparkStreaming 概述: SparkStreaming 是对实时数据流进行高通量、容错处理的流式处理系统,支持多对数据源输入<Kafka、Flume、HDFS>获取的数据使用Spark的高度抽象原语进行运算,并将结果数据在外部文件系统、数据库、实时仪表盘<H 阅读全文
摘要:
Spark SQL Spark SQL 简介: Spark用来处理结构化数据的模块。 Hive On Spark : Hive负责存储元数据和SQL解析优化,使用Spark引擎,Spark负责采用RDD执行。 Spark On Hive : Hive只负责存储元数据,Spark负责解析优化SQL,采 阅读全文
摘要:
Spark Core Spark Core 简介: Spark Core中封装了RDD的API,实现了高效的DAG执行引擎。 RDD 弹性分布式数据集: RDD是spark中最基本的数据抽象,是一个抽象类,里面存储了用来获取数据的逻辑,并没有存数据。 RDD 特性: '一组分区':是数据集的基本组成 阅读全文
摘要:
Spark 常用算子 阅读全文
摘要:
Spark 简介 Spark 概述: Spark发行与2013年6月,早于Yarn的发行,所以内置一套资源调度框架。 Spark基于内存进行数据的分析计算,中间过程只要不涉及Shuffle就不会落盘,减少了磁盘IO,所以性能更高。 Spark 内置模块: Spark Core :封装了RDD的API 阅读全文