摘要: Maprduce数据流走向图:流程解释Input files 功能描述:存储在HDFS中的文件数据 InputFormat 功能描述:1,选取数据对象 2,分割数据文件 3,读取数据对象 实现参考: 重写参考: 由于InputFormat包含了InputSplit类和RecordReader类的应用,故重写时可以先定义好数据结构后重写InputSplit和RecordReader类进行实现。文章参 考: http://blog.csdn.net/anbo724/article/details/695... 阅读全文
posted @ 2012-09-03 18:52 gchant_lin 阅读(302) 评论(0) 推荐(0) 编辑
摘要: /*matrix-matrix multiplication on HadoopA x B = Cconstraint: A, B, C must be of the same sizeI use this to evaluate the efficiency of Hadoop for matrix multiplication,so I really don't care to handle non-square matrices.===Data preparation====Matrix data must be stored in a file on Hadoop.Line n 阅读全文
posted @ 2012-08-29 18:13 gchant_lin 阅读(478) 评论(0) 推荐(0) 编辑
摘要: InputFormat是MapReduce中一个很常用的概念,它在程序的运行中到底起到了什么作用呢?InputFormat其实是一个接口,包含了两个方法:public interface InputFormat<K, V> { InputSplit[]getSplits(JobConf job, int numSplits) throws IOException; RecordReader<K, V>getRecordReader(InputSplit split, JobConf job, Reporter reporter) throws IOException;} 阅读全文
posted @ 2012-08-29 17:17 gchant_lin 阅读(2360) 评论(0) 推荐(0) 编辑
摘要: 随着越来越多的公司采用Hadoop,它所处理的问题类型也变得愈发多元化。随着Hadoop适用场景数量的不断膨胀,控制好怎样执行以及何处执行map任务显得至关重要。实现这种控制的方法之一就是自定义InputFormat实现。InputFormat类是Hadoop Map Reduce框架中的基础类之一。该类主要用来定义两件事情:数据分割(Data splits)记录读取器(Record reader)数据分割是Hadoop Map Reduce框架中的基础概念之一,它定义了单个Map任务的大小及其可能的执行服务器信息。记录读取器主要负责从输入文件实际读取数据并将它们(以键值对的形式)提交给m.. 阅读全文
posted @ 2012-08-29 15:09 gchant_lin 阅读(307) 评论(0) 推荐(0) 编辑