2013年8月31日

hadoop拾遗(二)---- 文件模式

摘要: 在单个操作中处理一批文件,这是一个常见的要求。举例来说,处理日志的MapReduce作业可能需要分析一个月内包含在大量目录中的日志文件。在一个表达式中使用通配符来匹配多个文件是比较方便的,无需列举第个文件 和目录来指定输入,该操作称为"通配"(globbing)。Hadoop 为执行通配提供了两个FileSystem方法:public FileStatus[] globStatus(Path pathPattern) throws IOExceptionpublic FileStatus[] globStatus(Paht pathPattern , PathFileter 阅读全文

posted @ 2013-08-31 12:08 BruceLv 阅读(325) 评论(0) 推荐(0) 编辑

hadoop拾遗(一)---- 避免切分map文件

摘要: 有些程序可能不希望文件被切分,而是用一个mapper完整处理每一个输入文件。例如,检查一个文件中所有记录是否有序,一个简单的方法是顺序扫描第一条记录并并比较后一条记录是否比前一条要小。如果将它实现为一个map任务,那么只有一个map操作整个文件时,这个算法才可行。 有二种办法可以保证输入文件不被切分 阅读全文

posted @ 2013-08-31 10:42 BruceLv 阅读(1148) 评论(0) 推荐(0) 编辑

导航