摘要: Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。Hive与HBase的整合功能的实现是利用两者本身对外的API接口互相进行通信,相互通信主要是依靠hive_hbase-handler.jar工具类, 大致意思如图所示:Mapr框架安装完后,安装与配置hbase、hive。其中mapr框架的安装路径为/opt/maprHbase的安 阅读全文
posted @ 2014-04-11 15:43 逍遥彩上飞 阅读(1572) 评论(0) 推荐(0) 编辑
摘要: 错误1: 排查问题通过查看HBase Master运行日志,结合客户端抛出异常的时刻,发现当时HBase集群内正在进行Region的Split和不同机器之间的Region Balance,那么,为什么会周期性频繁触发以上过程呢?而且是发生在压测期间(数据量与平时相比大几倍)。下面结合表的设计来分析... 阅读全文
posted @ 2014-04-11 15:21 逍遥彩上飞 阅读(3421) 评论(0) 推荐(0) 编辑