2014年2月23日

【转】详解MapReduce的模式、算法和用例

摘要: 【转自】:http://software.cnw.com.cn/software-database/htm2013/20130215_264134.shtml在这篇文章里总结了几种网上或者论文中常见的MapReduce模式和算法,并系统化的解释了这些技术的不同之处。所有描述性的文字和代码都使用了标准hadoop的MapReduce模型,包括Mappers, Reduces, Combiners, Partitioners,和 sorting。如下图所示:基本MapReduce模式计数与求和问题陈述: 有许多文档,每个文档都有一些字段组成。需要计算出每个字段在所有文档中的出现次数或者这些字段的其 阅读全文

posted @ 2014-02-23 21:56 爱踢小菜 阅读(308) 评论(0) 推荐(0) 编辑

【转】mapreduce中的全局文件使用方法:以k-means为例

摘要: 【转自:http://www.linuxidc.com/Linux/2012-10/71540p3.htm】 以前有做过在Hadoop编 写程序时使用全局变量的想法,但是最后却没有实现,上网查才看到说Hadoop不支持全局变量。但是有时候编程的时候又会用到,比如编写k-means算 法的时候,如果可以有个全局变量存储中心点该多好呀。其实在hadoop中确实是有相关的实现的,比如可以在mapper中的setup函数中读取一个小 文件,然后从这个文件中取出全局变量的值。那具体如何实现呢?首先提出一个问题,然后利用这种思想去解决会比较好。首先说下我要实现的问题:我现在有输入数据如下:0.00.20. 阅读全文

posted @ 2014-02-23 14:51 爱踢小菜 阅读(351) 评论(0) 推荐(0) 编辑

导航