会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
梦玄庭
博客园
首页
新随笔
联系
管理
订阅
2019年7月18日
mr利用shuffle阶段来实现数据去重的功能
摘要: 一、需求前提 小张同学从别处整来了一批日志,日志内容主要记录了每个用户在运营商中所使用过的手机号,如果没有则为空,数据大概是用户账号、电信手机号、联通手机号、移动手机号、铁通手机号、小灵通等等。当然还有一个关联关系静态文件,主要记录用户所在的省和地市,数据是用户账号,所在省,所在市。日志和静态文件都
阅读全文
posted @ 2019-07-18 18:24 梦玄庭
阅读(516)
评论(0)
推荐(0)
编辑
公告