2018年2月11日

MapReduce修改输出的文件名

摘要: MapReduce默认输出的文件名称格式如下:part-r-00000 自定义名称,比如editName,则输出的文件名称为:editName-r-0000,此方法没有彻底修改整个文件名,只修改了一部分 方法如下 重写TextOutPutFormat的setOutPutName方法,因为setOut 阅读全文

posted @ 2018-02-11 13:17 嘣嘣嚓 阅读(731) 评论(0) 推荐(0) 编辑

MapReduce分区的使用(Partition)

摘要: MapReduce中的分区默认是哈希分区,根据map输出key的哈希值做模运算,如下 如果我们需要根据业务需求来将map读入的数据按照某些特定条件写入不同的文件,那就需要自定义实现Partition,自定义规则 举个简单的例子,使用MapReduce做wordcount,但是需要根据单词的长度写入不 阅读全文

posted @ 2018-02-11 12:56 嘣嘣嚓 阅读(974) 评论(0) 推荐(0) 编辑

导航