摘要: HBase 的机制里包含了许多优秀的算法,如 Region 定位、Region 分配、Region Server的上线和下线、Master 的上线和下线。在谈到这些之前,先把 HBase 的基本架构里的一些概念列在这里。 一、HBase组成 1.Client:利用 RPC 机... 阅读全文
posted @ 2014-09-24 22:18 DianaCody 阅读(409) 评论(0) 推荐(0) 编辑
摘要: 数据倾斜即为数据在节点上分布不均,是常见的优化过程中常见的需要解决的问题。常见的Hive调优的方法:列剪裁、Map Join操作、 Group By操作、合并小文件。 一、表现 1.任务进度长度为99%,在任务监控页面中发现只有几个 reduce 子任务未完成; ... 阅读全文
posted @ 2014-09-24 00:57 DianaCody 阅读(750) 评论(0) 推荐(0) 编辑
摘要: Cloudera 提供给客户的服务内容之一就是调整和优化MapReduce job执行性能。MapReduce和HDFS组成一个复杂的分布式系统,并且它们运行着各式各样用户的代码,这样导致没有一个快速有效的规则来实现优化代码性能的目的。在我看来,调整cluster或job的运行更... 阅读全文
posted @ 2014-09-24 00:25 DianaCody 阅读(588) 评论(0) 推荐(0) 编辑