Spark知识整理

Spark是什么?

基于内存计算的大数据并行计算框架

2009年诞生

全栈多计算范式的高效数据流水线

 

Spark相比MapReduce的优势

1.中间结果输出

2.数据格式和内存布局

3.执行策略

4.任务调度的开销

 

Spark生态系统BDAS

 Berkeley Data Analytics Stack

 

Spark架构

Spark计算模型

RDD(transformation  and action)

算子分类:value型Transformation算子(map,union,filter,cache),key-value型Transformation算子(mapValues,reduceByKey,join),action算子(foreach,saveAsTextFile,collect,count,reduce)

 

posted @ 2016-07-22 14:48  BrightWise  阅读(164)  评论(0编辑  收藏  举报