打赏
摘要: 1.下载Hive安装包: 官网下载:http://hive.apache.org/downloads.html 百度云分享:https://pan.baidu.com/s/1M4LmdOXaq6T-PqkyvpFHQw 2.上传Hive的tar包,并解压: 解压:tar -zxvf apache-h 阅读全文
posted @ 2018-07-05 16:53 QueryMarsBo 阅读(254) 评论(0) 推荐(0) 编辑
摘要: 1.Hive简介 Hive是一个基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一个表。并提供类SQL查询功能, 可以将sql语句转换为MapReduce任务运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce 统计,不必开发专门的MapReduce应用,十 阅读全文
posted @ 2018-07-05 16:07 QueryMarsBo 阅读(1145) 评论(0) 推荐(0) 编辑
摘要: Hadoop HA的搭建,可参考链接:https://blog.csdn.net/mrbcy/article/details/64939623 说明: 1.在hadoop2.0中通常由两个NameNode组成,一个处于active状态,另一个处于standby状态。Active NameNode对外 阅读全文
posted @ 2018-07-05 14:46 QueryMarsBo 阅读(141) 评论(0) 推荐(0) 编辑
摘要: 1.高可靠概念 HA(High Available):高可用性集群,是保证业务连续性的有效解决方案,一般有两个或两个以上的节点,且分为活动 节点及备用节点 2.Hadoop的HA运作机制: :正式引入HA机制是从hadoop2.0开始,之前的版本中没有HA机制, :Hadoop-HA集群运作机制介绍 阅读全文
posted @ 2018-07-05 10:15 QueryMarsBo 阅读(212) 评论(0) 推荐(0) 编辑
摘要: 1.资源相关参数 (1) mapreduce.map.memory.mb: 一个Map Task可使用的资源上限(单位:MB),默认为1024。如果Map Task实际使用 的资源量超过该值,则会被强制杀死。 (2) mapreduce.reduce.memory.mb: 一个Reduce Task 阅读全文
posted @ 2018-07-05 08:22 QueryMarsBo 阅读(294) 评论(0) 推荐(0) 编辑
摘要: 一个稍复杂点的处理逻辑往往需要多个mapreduce程序串联处理,多job的串联可以借助mapreduce框架的JobControl实现 示例代码: 每个job装配完成才可以进行下面代码: 阅读全文
posted @ 2018-07-05 08:15 QueryMarsBo 阅读(165) 评论(0) 推荐(0) 编辑
摘要: 在实际生产代码中,常常需要将数据处理过程中遇到的不合规数据行进行全局计数,类似这种需求可以借助mapreduce框架中 提供的全局计数器来实现 示例代码如下: 阅读全文
posted @ 2018-07-05 08:13 QueryMarsBo 阅读(171) 评论(0) 推荐(0) 编辑