摘要: 1. spark 去重 (将每一行数据做为key来分组,这样就进行了去重,然后再取出key就可以了) 原数据: 2012-3-1 a 2012-3-2 b 2012-3-3 c 2012-3-2 b 实现源码: rdd.filter(_.trim().length() > 0).map(line = 阅读全文
posted @ 2019-07-25 10:21 林** 阅读(702) 评论(0) 推荐(0) 编辑