2022 年 9月随笔档案 - Antel

09 2022 档案

spark学习记录之join引发重复计算

摘要：一直对spark sql中的join操作感到迷惑，如果join之前的操作没有进行persist DataFrame的话，是否会存在让之前的transformation重复执行的问题，以及重复多少次。看一个例子考虑在map1/map2处设置一个累加器，join之后，看看map1/map2到底执行阅读全文

posted @ 2022-09-16 19:00 Antel 阅读(244) 评论(3) 推荐(0)

spark学习记录之withColumn重复计算

摘要：在使用Spark,尤其是Spark SQL时，经常会出现一些奇奇怪怪的效率低下问题。比如说，如果lineage比较长的时候，或者lineage比较复杂需要shuffle的时候，可能存在一定的rdd复用问题。通常在需要复用一个rdd的时候，建议进行persist。但是在实际情况下，又会经常出现不确定阅读全文

posted @ 2022-09-16 18:59 Antel 阅读(487) 评论(0) 推荐(0)

Antel

公告

09 2022 档案

spark学习记录之join引发重复计算

spark学习记录之withColumn重复计算