2012年6月19日

Hadoop中常用的InputFormat,OutPutFormat类

摘要: Hadoop常用的INPUTFORMAT类,下表中列出来InputFormat的其他常用实现,并简要描述了每个实现传递给mapper的键/值对.TestInputFormat在文本文件中的每一行均为一个记录.键(key)为一行的字符偏移,而值(value)为一行的内容Key:LongWritableValue:TextKeyValueTextinputFormat在文本文件中的每一行均为一个记录.以每行的第一个分隔符为界,分隔符之前的是键(key),之后的是值(value).分离器在属性key.value.separator.in.input.line中设定,默认为制表符(\t)Key:Tex 阅读全文

posted @ 2012-06-19 17:05 要么牛逼,要么滚蛋 阅读(957) 评论(0) 推荐(0) 编辑

对hadoop第一个小程序WordCount的简单解释.

摘要: package com.test;import java.io.IOException;import java.util.Iterator;import java.util.StringTokenizer;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import 阅读全文

posted @ 2012-06-19 14:07 要么牛逼,要么滚蛋 阅读(1110) 评论(0) 推荐(0) 编辑

导航