第五章_Spark核心编程_Rdd_任务拆分(Application&Job&Stage&Task)

 


1.说明

复制代码
  /*
  * RDD 任务切分中间分为:Application、Job、Stage 和 Task
      Application:初始化一个SparkContext即生成一个Application;
            new SparkConf().setMaster("local").setAppName("distinctTest")
      Job:一个Action算子就会生成一个Job
            每触发一个Action算子,就会提交一个job
      Stage:Stage等于宽依赖(ShuffleDependency)的个数加1;
            将每个job,根据是否Shuffle 拆分成不同的Stage
      Task:一个Stage阶段中,最后一个RDD的分区个数就是Task的个数。

      note : Application->Job->Stage->Task 每一层都是 1 对 n 的关系。
  *
  * */
复制代码

2.示例

复制代码
  object TaskTest extends App {

    val sparkconf: SparkConf = new SparkConf().setMaster("local").setAppName("distinctTest")

    val sc: SparkContext = new SparkContext(sparkconf)

    private val rdd: RDD[String] = sc.textFile("Spark_319/src/data/*.txt")


    private val rdd1: RDD[String] = rdd.flatMap(_.split(" "))


    private val rdd2: RDD[(String, Iterable[String])] = rdd1.groupBy(e => e)

    private val rdd3: RDD[(String, Int)] = rdd2.map(tp => (tp._1, tp._2.size))

    println("****rdd*********************")
    println(rdd.toDebugString)

    println("****rdd1*********************")
    println(rdd1.toDebugString)

    println("*****rdd2********************")
    println(rdd2.toDebugString)

    println("*****rdd3********************")
    println(rdd3.toDebugString)



    rdd3.collect().foreach(println(_))

    sc.stop()
  }
复制代码

 

posted @   学而不思则罔!  阅读(120)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 10年+ .NET Coder 心语 ── 封装的思维:从隐藏、稳定开始理解其本质意义
· 地球OL攻略 —— 某应届生求职总结
· 提示词工程——AI应用必不可少的技术
· 字符编码:从基础到乱码解决
· SpringCloud带你走进微服务的世界
点击右上角即可分享
微信分享提示