Spark知识整理
Spark是什么?
基于内存计算的大数据并行计算框架
2009年诞生
全栈多计算范式的高效数据流水线
Spark相比MapReduce的优势
1.中间结果输出
2.数据格式和内存布局
3.执行策略
4.任务调度的开销
Spark生态系统BDAS
Berkeley Data Analytics Stack
Spark架构
Spark计算模型
RDD(transformation and action)
算子分类:value型Transformation算子(map,union,filter,cache),key-value型Transformation算子(mapValues,reduceByKey,join),action算子(foreach,saveAsTextFile,collect,count,reduce)