2019年8月1日

Spark sql

摘要: Spark SQL SchemaRDD/DataFrame 介绍 用于结构化数据 Spark SQL运行原理 Catalyst 优化器:将逻辑计划转化成物理计划 Spark SQL API-1重点 SparkContext Spark SQL的编程入口 SparkSession 合并了SQLCont 阅读全文

posted @ 2019-08-01 22:48 来勒 阅读(200) 评论(0) 推荐(0) 编辑

Spark 分布式计算原理

摘要: Spark 分布式计算原理 Spark Shuffle RDD的依赖关系-1(lineage) RDD的依赖关系-2(lineage)?? 宽依赖对比窄依赖 DAG工作原理 根据RDD之间的依赖关系,形成一个DAG(有向无环) RDD持久化-1 cache: 间数据写入缓存 cache()不能再有其 阅读全文

posted @ 2019-08-01 22:45 来勒 阅读(562) 评论(0) 推荐(0) 编辑

spark 算子实例

摘要: RDD转换算子Transformation(lazy):懒汉模式 (转换) 一个数据集分成两个RDD,两个可能合并 map 输入变换函数应用于RDD中所有元素 val a = sc.parallelize(1 to 8) val b = a.map(s=>(s+1)) b.collect flatM 阅读全文

posted @ 2019-08-01 22:15 来勒 阅读(166) 评论(0) 推荐(0) 编辑

导航