摘要: 现在正式开始编写MapReduce程序。1、专利数据集 这里我们使用专利数据集作为hadoop的输入数据。数据集可以从美国国家经济研究局获得:http://www.nber.org/patents/。两个数据集下载地址分别为:http://www.nber.org/patents/acite75_99.zip http://www.nber.org/patents/apat63_99.zip。2、MapReduce程序的基础模板 大多数MapReduce程序的编写都可以依赖于一个模板或其变种,当写程序是,我们将其修改为我们所希望的样子,而不是重新写一个。 我们通过一个简单的例子来给出一个... 阅读全文
posted @ 2013-09-02 20:28 conbein 阅读(309) 评论(0) 推荐(0) 编辑
摘要: 三、读和写 mapreduce的输入数据一般来自较大的文件,通常为GB或TB级。MapReduce的基本处理原则是将输入数据分割成块,这些块可以在计算机上并行处理。块的大小需要权衡,如果太大,则并行粒度就会较大,如果太小,则启动和停止处理每个块所需时间就会占去很大部分执行时间。 1、InputFormat Hadoop分割与读取输入文件的方式被定义在InputFormat借口的一个实现中,TextInputFormat是InputFormat的默认实现,当你想要一次性读取一行数据,而且数据没有确定的键值时,这种数据结构会很有用。 常用InputFormat类如下 要设置相应的In... 阅读全文
posted @ 2013-09-02 18:21 conbein 阅读(186) 评论(0) 推荐(0) 编辑