博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

2022年9月16日

摘要: 一直对spark sql中的join操作感到迷惑, 如果join之前的操作没有进行persist DataFrame的话,是否会存在让之前的transformation重复执行的问题,以及重复多少次。 看一个例子 考虑在map1/map2处设置一个累加器,join之后,看看map1/map2到底执行 阅读全文

posted @ 2022-09-16 19:00 Antel 阅读(225) 评论(3) 推荐(0) 编辑

摘要: 在使用Spark,尤其是Spark SQL时,经常会出现一些奇奇怪怪的效率低下问题。比如说,如果lineage比较长的时候,或者lineage比较复杂需要shuffle的时候,可能存在一定的rdd复用问题。 通常在需要复用一个rdd的时候,建议进行persist。但是在实际情况下,又会经常出现不确定 阅读全文

posted @ 2022-09-16 18:59 Antel 阅读(428) 评论(0) 推荐(0) 编辑