摘要: hadooop提供了一个设置map个数的参数mapred.map.tasks,我们可以通过这个参数来控制map的个数。但是通过这种方式设置map的个数,并不是每次都有效的。原因是mapred.map.tasks只是一个hadoop的参考数值,最终map的个数,还取决于其他的因素。 为了方便介绍,先... 阅读全文
posted @ 2015-03-13 20:53 lujinhong 阅读(173) 评论(0) 推荐(0) 编辑
摘要: 在HBase中,大部分的操作都是在RegionServer完成的,Client端想要插入,删除,查询数据都需要先找到相应的RegionServer。什么叫相应的RegionServer?就是管理你要操作的那个Region的RegionServer。Client本身并不知道哪个RegionServer... 阅读全文
posted @ 2015-03-13 20:52 lujinhong 阅读(180) 评论(0) 推荐(0) 编辑
摘要: hadoop集群性能低下的常见原因(一)硬件环境1、CPU/内存不足,或未充分利用2、网络原因3、磁盘原因(二)map任务原因1、输入文件中小文件过多,导致多次启动和停止JVM进程。可以设置JVM重用。2、数据倾斜:大文件且不可分割,导致处理这些文件的map需要很长时间。3、数据本地化效果差。(三)... 阅读全文
posted @ 2015-03-13 20:51 lujinhong 阅读(242) 评论(0) 推荐(0) 编辑