怎样才能看懂 spark 中RDD 间的血缘关系

目录

1. RDD 血缘关系
2. RDD 依赖关系
3. RDD 窄依赖&宽依赖
4. 示例
5. 能从血缘关系中获取那些信息？

1. RDD 血缘关系

复制代码

  /*RDD 血缘关系*/
  /*
  * 1. 什么是Rdd的血缘关系？
  *   1.RDD 只支持粗粒度转换，即在大量记录上执行的单个操作。
  *   2.将创建 RDD 的一系列 Lineage (血统)记录下来,以便恢复丢失的分区。
  *   3.RDD的 Lineage 会记录RDD的 元数据信息和转换行为
  *       当该RDD的部分分区数据丢失时,它可以根据这些信息来重新运算和恢复丢失的数据分区
  *
  * 2. 怎样查看 Rdd的血缘关系？
  *    rdd.toDebugString
  * */

复制代码

2. RDD 依赖关系

  /*RDD 依赖关系*/
  /*
  * 1. 什么是Rdd的依赖关系？
  *     当前Rdd和父Rdd的依赖关系
  * 2. 怎样查看 Rdd的依赖关系？
  *     rdd.dependencies
  * */

3. RDD 窄依赖&宽依赖

复制代码

  /*RDD 窄依赖&宽依赖*/
  /*
  * 1.什么是窄依赖？
  *     当前Rdd的1个分区 最多依赖父Rdd的一个分区
  *     没有Shuffle过程,例如map、flatmap
  *
  * 2.什么是宽依赖？
  *     当前Rdd的1个分区 依赖父Rdd的多个分区数据
  *     有SHuffle过程,例如groupBy
  * */

复制代码

4. 示例

复制代码

  //查看 Rdd的血缘关系
  object FindLineAge extends App {

    val sparkconf: SparkConf = new SparkConf().setMaster("local").setAppName("distinctTest")

    val sc: SparkContext = new SparkContext(sparkconf)

    private val rdd: RDD[String] = sc.textFile("Spark_319/src/data/*.txt")


    private val rdd1: RDD[String] = rdd.flatMap(_.split(" "))


    private val rdd2: RDD[(String, Iterable[String])] = rdd1.groupBy(e => e)

    private val rdd3: RDD[(String, Int)] = rdd2.map(tp => (tp._1, tp._2.size))

    println("****rdd*********************")
    println(rdd.toDebugString)

    println("****rdd1*********************")
    println(rdd1.toDebugString)

    println("*****rdd2********************")
    println(rdd2.toDebugString)

    println("*****rdd3********************")
    println(rdd3.toDebugString)



    rdd3.collect().foreach(println(_))

    sc.stop()
  }
  
  //查看 Rdd的依赖关系
  object Finddepend extends App {

    val sparkconf: SparkConf = new SparkConf().setMaster("local").setAppName("distinctTest")

    val sc: SparkContext = new SparkContext(sparkconf)

    private val rdd: RDD[String] = sc.textFile("Spark_319/src/data/*.txt")

    private val rdd1: RDD[String] = rdd.flatMap(_.split(" "))

    private val rdd2: RDD[(String, Iterable[String])] = rdd1.groupBy(e => e)

    private val rdd3: RDD[(String, Int)] = rdd2.map(tp => (tp._1, tp._2.size))

    println("****rdd*********************")
    println(rdd.dependencies)

    println("****rdd1*********************")
    println(rdd1.dependencies)

    println("*****rdd2********************")
    println(rdd2.dependencies)

    println("*****rdd3********************")
    println(rdd3.dependencies)



    rdd3.collect().foreach(println(_))

    sc.stop()
  }

复制代码

复制代码

****rdd*********************
(2) Spark_319/src/data/*.txt MapPartitionsRDD[1] at textFile at 血缘关系.scala:54 []
 |  Spark_319/src/data/*.txt HadoopRDD[0] at textFile at 血缘关系.scala:54 []
****rdd1*********************
(2) MapPartitionsRDD[2] at flatMap at 血缘关系.scala:57 []
 |  Spark_319/src/data/*.txt MapPartitionsRDD[1] at textFile at 血缘关系.scala:54 []
 |  Spark_319/src/data/*.txt HadoopRDD[0] at textFile at 血缘关系.scala:54 []
*****rdd2********************
(2) ShuffledRDD[4] at groupBy at 血缘关系.scala:60 []
 +-(2) MapPartitionsRDD[3] at groupBy at 血缘关系.scala:60 []
    |  MapPartitionsRDD[2] at flatMap at 血缘关系.scala:57 []
    |  Spark_319/src/data/*.txt MapPartitionsRDD[1] at textFile at 血缘关系.scala:54 []
    |  Spark_319/src/data/*.txt HadoopRDD[0] at textFile at 血缘关系.scala:54 []
*****rdd3********************
(2) MapPartitionsRDD[5] at map at 血缘关系.scala:62 []
 |  ShuffledRDD[4] at groupBy at 血缘关系.scala:60 []
 +-(2) MapPartitionsRDD[3] at groupBy at 血缘关系.scala:60 []
    |  MapPartitionsRDD[2] at flatMap at 血缘关系.scala:57 []
    |  Spark_319/src/data/*.txt MapPartitionsRDD[1] at textFile at 血缘关系.scala:54 []
    |  Spark_319/src/data/*.txt HadoopRDD[0] at textFile at 血缘关系.scala:54 []


****rdd*********************
List(org.apache.spark.OneToOneDependency@512575e9)
****rdd1*********************
List(org.apache.spark.OneToOneDependency@617389a)
*****rdd2********************
List(org.apache.spark.ShuffleDependency@348ad293)
*****rdd3********************
List(org.apache.spark.OneToOneDependency@30f74e79)

复制代码

5. 能从血缘关系中获取那些信息？

   1.查询RDD 之前有多少个RDD
   2.源代码 中 有多少个 RDD对象
   3.RDD 的算子
   4.所在RDD 在源代码中行数及脚本名称

posted @ 2022-04-01 12:22 学而不思则罔！阅读(209) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

【推荐】还在用 ECharts 开发大屏？试试这款永久免费的开源 BI 工具！
【推荐】国内首个AI IDE，深度理解中文开发场景，立即下载体验Trae
【推荐】编程新体验，更懂你的AI，立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包，你的智能百科全书，全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell：AI 加持，快人一步

相关博文：

· Dependency 源码

· 第五章_Spark核心编程_Rdd_转换算子_Value型_map

· RDD依赖关系

· RDD 依赖关系

· |NO.Z.00013|——————————|BigDataEnd|——|Hadoop&Spark.V01|——|Spark.v01|sparkcore|RDD编程&什么是RDD&RDD特点|

阅读排行：
· 10年+ .NET Coder 心语 ── 封装的思维：从隐藏、稳定开始理解其本质意义
· 地球OL攻略 —— 某应届生求职总结
· 提示词工程——AI应用必不可少的技术
· 字符编码：从基础到乱码解决
· SpringCloud带你走进微服务的世界

公告

昵称：学而不思则罔！
园龄： 4年10个月
粉丝： 11
关注： 0

<

2025年3月

>

日

一

二

三

四

五

六

23

24

25

26

27

28

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论

1. Re:第十章 Hive调优【合理设置Map数】
请问这是基于spark引擎还是mapreduce下的讨论呀
--好困sleepy
2. Re:第五章_Spark核心编程_Rdd_转换算子_Value型_glom算子
rdd1.aggregateByKey(0)( (x, y) => { math.max(x, y) }, (x, y) => { x + y } ).collect().foreach(printl...
--API_ZY
3. Re:第五章_Spark核心编程_Rdd_转换算子_Value型_glom算子
123
--API_ZY
4. Re:hive_面试题【打折日期交叉问题】
这题挺绕的，第二种还稍微好理解点儿，第一种完全是数学技巧
--自琢
5. Re:hive_面试题【同时在线问题】
第一种算法逻辑有问题，同时在线的条件可是有4中，但是只能保证和他当时同时在线，不能保证别的用户同时在线，所以，算法的出发点就有问题，算出的结果也没意义。
第二种算发很棒。
--自琢