摘要:一直对spark sql中的join操作感到迷惑, 如果join之前的操作没有进行persist DataFrame的话,是否会存在让之前的transformation重复执行的问题,以及重复多少次。 看一个例子 考虑在map1/map2处设置一个累加器,join之后,看看map1/map2到底执行
阅读全文
posted @ 2022-09-16 19:00
09 2022 档案
摘要:一直对spark sql中的join操作感到迷惑, 如果join之前的操作没有进行persist DataFrame的话,是否会存在让之前的transformation重复执行的问题,以及重复多少次。 看一个例子 考虑在map1/map2处设置一个累加器,join之后,看看map1/map2到底执行
阅读全文
posted @ 2022-09-16 19:00
摘要:在使用Spark,尤其是Spark SQL时,经常会出现一些奇奇怪怪的效率低下问题。比如说,如果lineage比较长的时候,或者lineage比较复杂需要shuffle的时候,可能存在一定的rdd复用问题。 通常在需要复用一个rdd的时候,建议进行persist。但是在实际情况下,又会经常出现不确定
阅读全文
posted @ 2022-09-16 18:59
|
||