12 2017 档案

Hadoop 少量map/reduce任务执行慢问题
摘要:最近在做报表统计,跑hadoop任务。 之前也跑过map/reduce但是数据量不大,遇到某些map/reduce执行时间特别长的问题。 执行时间长有几种可能性: 1. 单个map/reduce任务处理的任务大。 需要注意每个任务的数据处理量大小不至于偏差太大。可以切割部分大文件。 2. map数量 阅读全文

posted @ 2017-12-23 10:53 旭东的博客 阅读(4460) 评论(0) 推荐(0) 编辑

Hadoop streaming 排序、分桶参数设置
摘要:编写hadoop任务经常需要用到partition和排序。这里记录一下几个参数。 1. 概念 Partition:分桶过程,用户输出的key经过partition分发到不同的reduce里,因而partitioner就是分桶器,一般用平台默认的hash分桶也可以自己指定。Key:是需要排序的字段,相 阅读全文

posted @ 2017-12-16 11:06 旭东的博客 阅读(3560) 评论(0) 推荐(0) 编辑

导航

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5
点击右上角即可分享
微信分享提示