会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
BoyYuBaby
博客园
首页
新随笔
联系
订阅
管理
2019年1月23日
TopN——GroupTopN
摘要: TopN: 分组TopN(在worker端排序): 分组TopN②(在driver段调spark排序): 繁琐操作(一般不用)
阅读全文
posted @ 2019-01-23 18:04 BoyYuBaby
阅读(422)
评论(0)
推荐(0)
2019年1月20日
SparkRDD未持久化——持久化
摘要: RDD的持久化策略: cache、persist、checkpoint三种策略(持久化的单位是partition) 1、cache是persist的一个简化版,会将rdd中的数据持久化到内存中 cache = persists(StorageLevel.MEMORY_ONLY) 不进行序列化特点:
阅读全文
posted @ 2019-01-20 17:59 BoyYuBaby
阅读(278)
评论(0)
推荐(0)
WordCount对比spark——java
摘要: 使用spark编写的WordCount! 使用java编写的WordCount!
阅读全文
posted @ 2019-01-20 15:44 BoyYuBaby
阅读(207)
评论(0)
推荐(0)
公告