摘要: 背景 spark的transform是lazy模式的,只有当action时才会触发真正的执行。大部分情况下,如果某个df、rdd下游有多个链路,为了避免重复执行,一般会对该算子进行cache 场景 在某个stage阶段,存在一个RDD,transform完成后可能存在数亿的结果 在调试阶段,我们需要 阅读全文
posted @ 2021-05-08 10:38 周周周文阳 阅读(210) 评论(0) 推荐(0) 编辑