Spark-RDD

RDD

抽象的数据结构-》形成有向无环图

高度受限的内存模型。

操作类型

动作类型操作 转换类型操作

一次只能针对RDD全集进行转换

spreak提供了RDD 的API

 

 

惰性操作

天然容错性

RDD之间的依赖关系

宽依赖:Shuffle操作,也就是洗牌操作,宽依赖无法优化,窄依赖可以优化

 

 

RDD 运行原理

宽依赖:无法进行流水化优化,Shuffle操作一定会写磁盘(北京飞厦门中途落地join的例子)

窄依赖:可以进行流水线优化

 

 

spark部署应用方式

hadoop包含了存储框架HDFS,计算框架,分布式数据库HBase

posted @ 2020-06-04 16:50  我是小杨  阅读(103)  评论(0)    收藏  举报