Hadoop中文件读写(Java) <转>
摘要:
前言在本文档中,你将了解到如何用Java接口读写Hadoop分布式系统中的文件,以及编码的转换等问题。其中有些细节,在你不知道的时候,是非常容易出错的。 这边读写文件分以下三种情况:1. 在非Map Reduce过程中读写分布式文件系统中的文件比如说,你想自己遍历一个文件,想截断一个文件,都属于这种方式。一般该过程发生在run函数中,程序员处理Map Reduce产生的中间文件上。2. 在map(或reduce)函数中读写一个Record。对于TextInputFormat,一个Record就是一行。我们会得到一个Text对象,作为一行。要注意的是如果读入的文件不是UTF-8 格式(比如GBK 阅读全文
posted @ 2012-08-17 12:30 要么牛逼,要么滚蛋 阅读(3078) 评论(0) 推荐(0) 编辑