2013 年 9月 2 日随笔档案 - conbein

2013年9月2日

摘要：现在正式开始编写MapReduce程序。1、专利数据集这里我们使用专利数据集作为hadoop的输入数据。数据集可以从美国国家经济研究局获得:http://www.nber.org/patents/。两个数据集下载地址分别为：http://www.nber.org/patents/acite75_99.zip http://www.nber.org/patents/apat63_99.zip。2、MapReduce程序的基础模板大多数MapReduce程序的编写都可以依赖于一个模板或其变种，当写程序是，我们将其修改为我们所希望的样子，而不是重新写一个。我们通过一个简单的例子来给出一个... 阅读全文

posted @ 2013-09-02 20:28 conbein 阅读(317) 评论(0) 推荐(0) 编辑

MapReduce学习笔记(3)

摘要：三、读和写 mapreduce的输入数据一般来自较大的文件，通常为GB或TB级。MapReduce的基本处理原则是将输入数据分割成块，这些块可以在计算机上并行处理。块的大小需要权衡，如果太大，则并行粒度就会较大，如果太小，则启动和停止处理每个块所需时间就会占去很大部分执行时间。 1、InputFormat Hadoop分割与读取输入文件的方式被定义在InputFormat借口的一个实现中，TextInputFormat是InputFormat的默认实现，当你想要一次性读取一行数据，而且数据没有确定的键值时，这种数据结构会很有用。常用InputFormat类如下要设置相应的In... 阅读全文

posted @ 2013-09-02 18:21 conbein 阅读(186) 评论(0) 推荐(0) 编辑

conbein

公告