gchant_lin - 博客园

2012年9月3日

摘要： Maprduce数据流走向图：流程解释Input files 功能描述：存储在HDFS中的文件数据 InputFormat 功能描述：1，选取数据对象 2，分割数据文件 3，读取数据对象实现参考：重写参考：由于InputFormat包含了InputSplit类和RecordReader类的应用，故重写时可以先定义好数据结构后重写InputSplit和RecordReader类进行实现。文章参考： http://blog.csdn.net/anbo724/article/details/695... 阅读全文

posted @ 2012-09-03 18:52 gchant_lin 阅读(331) 评论(0) 推荐(0)

2012年8月29日

hadoop矩阵相乘简单实现

摘要： /*matrix-matrix multiplication on HadoopA x B = Cconstraint: A, B, C must be of the same sizeI use this to evaluate the efficiency of Hadoop for matrix multiplication,so I really don't care to handle non-square matrices.===Data preparation====Matrix data must be stored in a file on Hadoop.Line n 阅读全文

posted @ 2012-08-29 18:13 gchant_lin 阅读(489) 评论(0) 推荐(0)

InputFormat详解 -- RecordReader篇

摘要： InputFormat是MapReduce中一个很常用的概念，它在程序的运行中到底起到了什么作用呢？InputFormat其实是一个接口，包含了两个方法：public interface InputFormat<K, V> { InputSplit[]getSplits(JobConf job, int numSplits) throws IOException; RecordReader<K, V>getRecordReader(InputSplit split, JobConf job, Reporter reporter) throws IOException;} 阅读全文

posted @ 2012-08-29 17:17 gchant_lin 阅读(2418) 评论(0) 推荐(0)

揭秘InputFormat：掌控Map Reduce任务执行的利器

摘要：随着越来越多的公司采用Hadoop，它所处理的问题类型也变得愈发多元化。随着Hadoop适用场景数量的不断膨胀，控制好怎样执行以及何处执行map任务显得至关重要。实现这种控制的方法之一就是自定义InputFormat实现。InputFormat类是Hadoop Map Reduce框架中的基础类之一。该类主要用来定义两件事情：数据分割(Data splits)记录读取器(Record reader)数据分割是Hadoop Map Reduce框架中的基础概念之一，它定义了单个Map任务的大小及其可能的执行服务器信息。记录读取器主要负责从输入文件实际读取数据并将它们（以键值对的形式）提交给m.. 阅读全文

posted @ 2012-08-29 15:09 gchant_lin 阅读(326) 评论(0) 推荐(0)

公告