会员
周边
众包
新闻
博问
闪存
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
赠人玫瑰,手留余香。不忘初心,砥砺前行。
博客园
新随笔
管理
2012年6月4日
Hadoop集群(第9期)_MapReduce初级案例
摘要: 1、数据去重 "数据去重"主要是为了掌握和利用并行化思想来对数据进行有意义的筛选。统计大数据集上的数据种类个数、从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去重。下面就进入这个实例的MapReduce程序设计。 1.1 实例描述 对数据文件中的数据进行去重。数据文件中的每行都是一个数据。
阅读全文
posted @ 2012-06-04 13:22 虾皮
阅读(116761)
评论(47)
推荐(51)
编辑
公告