摘要: TopN: 分组TopN(在worker端排序): 分组TopN②(在driver段调spark排序): 繁琐操作(一般不用) 阅读全文
posted @ 2019-01-23 18:04 BoyYuBaby 阅读(392) 评论(0) 推荐(0) 编辑
摘要: RDD的持久化策略: cache、persist、checkpoint三种策略(持久化的单位是partition) 1、cache是persist的一个简化版,会将rdd中的数据持久化到内存中 cache = persists(StorageLevel.MEMORY_ONLY) 不进行序列化特点: 阅读全文
posted @ 2019-01-20 17:59 BoyYuBaby 阅读(262) 评论(0) 推荐(0) 编辑
摘要: 使用spark编写的WordCount! 使用java编写的WordCount! 阅读全文
posted @ 2019-01-20 15:44 BoyYuBaby 阅读(199) 评论(0) 推荐(0) 编辑