2013 年 3月 27 日随笔档案 - 山君

2013年3月27日

摘要：最近需要为一些数据增加随机读的功能，于是采用生成HFile再bulk load进HBase的方式。运行的时候map很快完成，reduce在sort阶段花费时间很长，reducer用的是KeyValueSortReducer而且只有一个，这就形成了单reducer全排序的瓶颈。于是就想着采用TotalOrderPartitioner使得MR Job可以有多个reducer，来提高并行度解决这个瓶颈。于是动手写代码，不仅用了TotalOrderPartitioner，还使用InputSampler.RandomSampler生成分区文件。但执行时碰到问题，查资料时无意发现HFileOutputFo 阅读全文

posted @ 2013-03-27 17:31 山君阅读(1223) 评论(0) 推荐(0) 编辑