04 2023 档案

摘要:众所周知,RDD只会保留血缘关系,不存储计算结果。如果想要让计算结果持久化存储,那就要引入cache和persist方法。 提前感受变化 禁用持久化 package com.pzb.rdd.persist import org.apache.spark.rdd.RDD import org.apac 阅读全文
posted @ 2023-04-20 14:01 MrSponge 阅读(17) 评论(0) 推荐(0) 编辑
摘要:介绍 val fileRDD: RDD[String] = sc.textFile("input/1.txt") println(fileRDD.toDebugString) println(" ") val wordRDD: RDD[String] = fileRDD.flatMap(_.spli 阅读全文
posted @ 2023-04-20 13:55 MrSponge 阅读(54) 评论(0) 推荐(0) 编辑
摘要:Spark的算子分为两大类:transform(转换算子)和action(行动算子) transform算子:map、mapPartitions、mapPartitionsWithIndex、flatMap、glom、groupBy、filter、sample、distinct、coalesce、r 阅读全文
posted @ 2023-04-20 13:45 MrSponge 阅读(299) 评论(2) 推荐(0) 编辑

点击右上角即可分享
微信分享提示