2023 年 4月 20 日随笔档案 - MrSponge

2023年4月20日

众所周知，RDD只会保留血缘关系，不存储计算结果。如果想要让计算结果持久化存储，那就要引入cache和persist方法。提前感受变化禁用持久化 package com.pzb.rdd.persist import org.apache.spark.rdd.RDD import org.apac Read More

posted @ 2023-04-20 14:01 MrSponge Views(15) Comments(0) Diggs(0) Edit

RDD依赖关系

介绍 val fileRDD: RDD[String] = sc.textFile("input/1.txt") println(fileRDD.toDebugString) println(" ") val wordRDD: RDD[String] = fileRDD.flatMap(_.spli Read More

posted @ 2023-04-20 13:55 MrSponge Views(49) Comments(0) Diggs(0) Edit

Spark算子总结

Spark的算子分为两大类：transform（转换算子）和action（行动算子） transform算子：map、mapPartitions、mapPartitionsWithIndex、flatMap、glom、groupBy、filter、sample、distinct、coalesce、r Read More

posted @ 2023-04-20 13:45 MrSponge Views(242) Comments(2) Diggs(0) Edit

Mr-Sponge

道阻且长啊~~~