2016年5月25日
摘要: MapReduce的Shuffle过程介绍 Shuffle的本义是洗牌、混洗,把一组有一定规则的数据尽量转换成一组无规则的数据,越随机越好。MapReduce中的Shuffle更像是洗牌的逆过程,把一组无规则的数据尽量转换成一组具有一定规则的数据。 为什么MapReduce计算模型需要Shuffle 阅读全文
posted @ 2016-05-25 22:25 松伯 阅读(4563) 评论(0) 推荐(0) 编辑
摘要: 提前生成Hbase预分区种子,在创建Hbase表时也进行相应的预分区,同时设置预分区的个数,预分区的范围对应Hbase监控页面的Region Server的start key与End key,从而使数据能够均匀的分布于各个Region中.给捷哥赞一个~ 阅读全文
posted @ 2016-05-25 16:16 松伯 阅读(838) 评论(0) 推荐(1) 编辑
摘要: 读取hdfs中文件并做处理,取出卡号,通过卡号连接hbase查询出对应客户号,写入redis,因为不用输出,所以不调用context.write方法,整个操作在一个map中便可完成 阅读全文
posted @ 2016-05-25 11:01 松伯 阅读(711) 评论(0) 推荐(0) 编辑