2024 年 7月 17 日随笔档案 - MrSponge

2024年7月17日

Spark算子是分为行动子算子和转换算子的，只有遇到行动算子，计算任务才会生成一个Job任务，当算子行动算子多起来，并且交织复杂的时候，Spark去追溯数据血缘就会比较耗时了，通常我们都会直接通过persist算子存储中间的计算结果，减少数据的重复计算。 // 存储中间计算结果，避免Spark重复计 Read More

posted @ 2024-07-17 10:59 MrSponge Views(100) Comments(0) Diggs(0) Edit

Mr-Sponge

道阻且长啊~~~