会员
周边
捐助
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
Meditation
埋滴忒深
博客园
首页
新随笔
联系
管理
订阅
2019年8月14日
数据算法 --hadoop/spark数据处理技巧 --(1.二次排序问题 2. TopN问题)
摘要: 一、二次排序问题。 MR/hadoop两种方案: 1.让reducer读取和缓存给个定键的所有值(例如,缓存到一个数组数据结构中,)然后对这些值完成一个reducer中排序。这种方法不具有可伸缩性,因为reducer要接受一个给定键的所有值,这种方法可能导致reducer的内存耗尽(OOM)。另一方
阅读全文
posted @ 2019-08-14 14:29 _Meditation
阅读(286)
评论(0)
推荐(0)
编辑
公告