spark：distinct算子实现原理

distinct的底层使用reducebykey巧妙实现去重逻辑

//使用reduceByKey或者groupbykey的shuffle去重思想
rdd.map(key=>(key,null)).reduceByKey((key,value)=>key)
  .map(_._1)

posted @ 2020-05-17 18:35 夜半钟声到客船阅读(1494) 评论(0) 编辑收藏举报

刷新页面返回顶部

落霞与孤鹜齐飞