摘要: 作者:王燚光链接:https://www.zhihu.com/question/33270495/answer/93424104来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 梳理一下Spark中关于并发度涉及的几个概念File,Block,Split,Task,Pa 阅读全文
posted @ 2017-11-07 20:04 cctext 阅读(1548) 评论(0) 推荐(0) 编辑
摘要: def partitionBy(partitioner: Partitioner): RDD[(K, V)] 该函数根据partitioner函数生成新的ShuffleRDD,将原RDD重新分区。 参考:http://lxw1234.com/archives/2015/07/356.htm 阅读全文
posted @ 2017-11-07 20:00 cctext 阅读(9212) 评论(0) 推荐(0) 编辑
摘要: 抽样示例操作: 阅读全文
posted @ 2017-11-07 19:48 cctext 阅读(1847) 评论(0) 推荐(0) 编辑