2018年8月2日

摘要: Shared Variables Spark does provide two limited types of shared variables for two common usage patterns: broadcast variables and accumulators. Broadca 阅读全文

posted @ 2018-08-02 16:47 打杂滴 阅读(159) 评论(0) 推荐(0) 编辑

摘要: RDD运行原理 1.创建 RDD 对象 2.DAGScheduler模块介入运算,计算RDD之间的依赖关系。RDD之间的依赖关系就形成了DAG 3.每一个JOB被分为多个Stage,划分Stage的一个主要依据是当前计算因子的输入是否是确定的,如果是则将其分在同一个Stage,避免多个Stage之间 阅读全文

posted @ 2018-08-02 15:20 打杂滴 阅读(134) 评论(0) 推荐(0) 编辑

摘要: stage的划分是以shuffle操作作为边界的,遇到一个宽依赖就分一个stage 一个Job会被拆分为多组Task,每组任务被称为一个Stage就像Map Stage, Reduce Stage。Stage的划分在RDD的论文中有详细的介绍,简单的说是以shuffle和result这两种类型来划分 阅读全文

posted @ 2018-08-02 11:11 打杂滴 阅读(945) 评论(0) 推荐(0) 编辑


Copyright © 2024 打杂滴
Powered by .NET 8.0 on Kubernetes