子墨言良

2018年5月17日

Have启动报错：java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient

posted @ 2018-05-17 10:53 子墨言良阅读(13121) 评论(3) 推荐(0) 编辑

2018年5月14日

Hive 环境的安装部署

摘要： Hive在客户端上的安装部署一、客户端准备：到这我相信大家都已经打过三节点集群了，如果是的话则可以跳过一，直接进入二。如果不是则按流程来一遍！ 1、克隆虚拟机，见我的博客：虚拟机克隆及网络配置 2、实现客户端和集群的连接（该步骤为多节点集群搭建，详情见我博客：三节点Hadoop集群搭建，有多节阅读全文

posted @ 2018-05-14 21:43 子墨言良阅读(331) 评论(0) 推荐(0) 编辑

Zookeeper启动失败：java.net.BindException: Address already in use

摘要：错误日志如下：如日志中红色字体所示，该错误是由于Zookeeper对应的端口号被占用导致的。查看端口占用情况：如上所示，占用Zookeeper对应端口号的应用是java，只需要kill掉该应用就能成功启动Zookeeper了。重启如下： Zookeeper启动成功！以上就是博主为大家介绍的阅读全文

posted @ 2018-05-14 19:57 子墨言良阅读(18797) 评论(0) 推荐(0) 编辑

虚拟机克隆及网络配置

摘要：话不多说，直接上操作吧！ 1.虚拟机克隆先进入VMware软件，然后选中你要克隆的虚拟机，右键选择“管理”->“克隆”，进入以下页面。到此，克隆的任务就完成了，是不是很简单啊！ 2.通信配置启动虚拟机，然后点击“编辑”->“虚拟网络编辑器”，查看网关，记住网关地址。输入“ifconfig”查阅读全文

posted @ 2018-05-14 16:46 子墨言良阅读(710) 评论(0) 推荐(0) 编辑

2018年5月12日

深入学习Hive应用场景及架构原理

摘要： Hive背景介绍 Hive最初是Facebook为了满足对海量社交网络数据的管理和机器学习的需求而产生和发展的。互联网现在进入了大数据时代，大数据是现在互联网的趋势，而hadoop就是大数据时代里的核心技术，但是hadoop的mapreduce操作专业性太强，所以facebook在这些基础上开发了h 阅读全文

posted @ 2018-05-12 16:03 子墨言良阅读(17875) 评论(0) 推荐(2) 编辑

Hadoop实战：明星搜索指数统计，找出人气王

摘要：项目介绍本项目我们使用明星搜索指数数据，分别统计出搜索指数最高的男明星和女明星。数据集明星搜索指数数据集，如下图所示。猛戳此链接下载数据集思路分析基于项目的需求，我们通过以下几步完成： 1、编写 Mapper类，按需求将数据集解析为 key=gender，value=name+hotInd 阅读全文

posted @ 2018-05-12 11:02 子墨言良阅读(796) 评论(0) 推荐(0) 编辑

2018年5月10日

MapReduce 二次排序

摘要：默认情况下，Map 输出的结果会对 Key 进行默认的排序，但是有时候需要对 Key 排序的同时再对 Value 进行排序，这时候就要用到二次排序了。下面让我们来介绍一下什么是二次排序。二次排序原理我们把二次排序主要分为以下几个阶段。 Map 起始阶段在Map阶段，使用 job.setInpu 阅读全文

posted @ 2018-05-10 16:39 子墨言良阅读(1719) 评论(6) 推荐(0) 编辑

Hadoop实战：reduce端实现Join

摘要：项目描述现在假设有两个数据集：气象站数据库和天气记录数据库，并考虑如何合二为一。一个典型的查询是：输出气象站的历史信息，同时各行记录也包含气象站的元数据信息。气象站和天气记录合并之后的示意图如下所示。测试数据启动Hadoop集群，然后在hdfs中创建join文件夹用于存放测试数据statio 阅读全文

posted @ 2018-05-10 10:15 子墨言良阅读(505) 评论(0) 推荐(0) 编辑

2018年5月9日

MapReduce中的Join算法

摘要：在关系型数据库中 Join 是非常常见的操作，各种优化手段已经到了极致。在海量数据的环境下，不可避免的也会碰到这种类型的需求，例如在数据分析时需要连接从不同的数据源中获取到数据。不同于传统的单机模式，在分布式存储下采用MapReduce 编程模型，也有相应的处理措施和优化方法。现在假设有两个数据阅读全文

posted @ 2018-05-09 10:36 子墨言良阅读(307) 评论(0) 推荐(0) 编辑

2018年5月8日

Hadoop计数器

摘要： 1. MapReduce计数器是什么计数器是用来记录Job的执行进度和状态的，其作用类似于日志。我们可以在程序的某个位置插入计数器，记录数据或进度的变化情况。 2. MapReduce计数器能做什么计数器为我们提供了一个窗口，用于观察Job运行期间的各种细节数据，对MapReduce的性能调优很阅读全文

posted @ 2018-05-08 16:52 子墨言良阅读(727) 评论(0) 推荐(0) 编辑

公告