willian
18702515157@163.com
摘要: 问题背景:pairRDD 调用spark存入文件的api时,最后结果文件的个数(就是分区的个数)取决于PariRDD中的key的hash值, 解决后可是相同key的数据到同一个partitioner中 解决方法: 整个代码如下: 阅读全文
posted @ 2017-03-18 23:14 willian_zhang 阅读(1165) 评论(0) 推荐(0) 编辑