2017年12月16日

Hadoop streaming 排序、分桶参数设置

摘要: 编写hadoop任务经常需要用到partition和排序。这里记录一下几个参数。 1. 概念 Partition:分桶过程,用户输出的key经过partition分发到不同的reduce里,因而partitioner就是分桶器,一般用平台默认的hash分桶也可以自己指定。Key:是需要排序的字段,相 阅读全文

posted @ 2017-12-16 11:06 旭东的博客 阅读(3518) 评论(0) 推荐(0) 编辑

导航