2014 年 5月 5 日随笔档案 - Tim&Blog

2014年5月5日

摘要： Hadoop集群（第9期）_MapReduce初级案例 - 虾皮 - 博客园1、数据去重 "数据去重"主要是为了掌握和利用并行化思想来对数据进行有意义的筛选。统计大数据集上的数据种类个数、从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去重。下面就进入这个实例的MapReduce程序设计。1.1 实例描述对数据文件中的数据进行去重。数据文件中的每行都是一个数据。样例输入如下所示：... 阅读全文

posted @ 2014-05-05 15:51 Tim&Blog 阅读(1149) 评论(0) 推荐(1) 编辑

Hadoop MapReduce开发最佳实践（上篇）

摘要： Hadoop MapReduce开发最佳实践（上篇）本文是Hadoop最佳实践系列第二篇，上一篇为《Hadoop管理员的十个最佳实践》。MapRuduce开发对于大多数程序员都会觉得略显复杂，运行一个WordCount（Hadoop中hello word程序）不仅要熟悉MapRuduce模型，还要了解Linux命令（尽管有Cygwin，但在Windows下运行MapRuduce仍然很麻烦），此外还... 阅读全文

posted @ 2014-05-05 15:39 Tim&Blog 阅读(756) 评论(0) 推荐(0) 编辑

Hadoop MapReduce开发最佳实践（上篇）

posted @ 2014-05-05 15:39 Tim&Blog 阅读(1) 评论(0) 推荐(0) 编辑

wang3680 机会是留给那些有准备的人

——呼和浩特市大学西路235号

公告