第五章_Spark核心编程_Rdd_任务拆分(Application&Job&Stage&Task)
1.说明
/* * RDD 任务切分中间分为:Application、Job、Stage 和 Task Application:初始化一个SparkContext即生成一个Application; new SparkConf().setMaster("local").setAppName("distinctTest") Job:一个Action算子就会生成一个Job 每触发一个Action算子,就会提交一个job Stage:Stage等于宽依赖(ShuffleDependency)的个数加1; 将每个job,根据是否Shuffle 拆分成不同的Stage Task:一个Stage阶段中,最后一个RDD的分区个数就是Task的个数。 note : Application->Job->Stage->Task 每一层都是 1 对 n 的关系。 * * */
2.示例
object TaskTest extends App { val sparkconf: SparkConf = new SparkConf().setMaster("local").setAppName("distinctTest") val sc: SparkContext = new SparkContext(sparkconf) private val rdd: RDD[String] = sc.textFile("Spark_319/src/data/*.txt") private val rdd1: RDD[String] = rdd.flatMap(_.split(" ")) private val rdd2: RDD[(String, Iterable[String])] = rdd1.groupBy(e => e) private val rdd3: RDD[(String, Int)] = rdd2.map(tp => (tp._1, tp._2.size)) println("****rdd*********************") println(rdd.toDebugString) println("****rdd1*********************") println(rdd1.toDebugString) println("*****rdd2********************") println(rdd2.toDebugString) println("*****rdd3********************") println(rdd3.toDebugString) rdd3.collect().foreach(println(_)) sc.stop() }
分类:
SparkCore
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 10年+ .NET Coder 心语 ── 封装的思维:从隐藏、稳定开始理解其本质意义
· 地球OL攻略 —— 某应届生求职总结
· 提示词工程——AI应用必不可少的技术
· 字符编码:从基础到乱码解决
· SpringCloud带你走进微服务的世界