Spark-RDD
RDD
抽象的数据结构-》形成有向无环图
高度受限的内存模型。
操作类型
动作类型操作 转换类型操作
一次只能针对RDD全集进行转换
spreak提供了RDD 的API
惰性操作
天然容错性
RDD之间的依赖关系
宽依赖:Shuffle操作,也就是洗牌操作,宽依赖无法优化,窄依赖可以优化
RDD 运行原理
宽依赖:无法进行流水化优化,Shuffle操作一定会写磁盘(北京飞厦门中途落地join的例子)
窄依赖:可以进行流水线优化
spark部署应用方式
hadoop包含了存储框架HDFS,计算框架,分布式数据库HBase