摘要:
错误日志如下: 以上就是博主为大家介绍的这一板块的主要内容,这都是博主自己的学习过程,希望能给大家带来一定的指导作用,有用的还望大家点个支持,如果对你没用也望包涵,有错误烦请指出。如有期待可关注博主以第一时间获取更新哦,谢谢! 版权声明:本文为博主原创文章,未经博主允许不得转载。 阅读全文
摘要:
Hive在客户端上的安装部署 一、客户端准备: 到这我相信大家都已经打过三节点集群了,如果是的话则可以跳过一,直接进入二。如果不是则按流程来一遍! 1、克隆虚拟机,见我的博客:虚拟机克隆及网络配置 2、 实现客户端和集群的连接(该步骤为多节点集群搭建,详情见我博客:三节点Hadoop集群搭建,有多节 阅读全文
摘要:
错误日志如下: 如日志中红色字体所示,该错误是由于Zookeeper对应的端口号被占用导致的。 查看端口占用情况: 如上所示,占用Zookeeper对应端口号的应用是java,只需要kill掉该应用就能成功启动Zookeeper了。 重启如下: Zookeeper启动成功! 以上就是博主为大家介绍的 阅读全文
摘要:
话不多说,直接上操作吧! 1.虚拟机克隆 先进入VMware软件,然后选中你要克隆的虚拟机,右键选择“管理”->“克隆”,进入以下页面。 到此,克隆的任务就完成了,是不是很简单啊! 2.通信配置 启动虚拟机,然后点击“编辑”->“虚拟网络编辑器”,查看网关,记住网关地址。 输入“ifconfig”查 阅读全文
摘要:
Hive背景介绍 Hive最初是Facebook为了满足对海量社交网络数据的管理和机器学习的需求而产生和发展的。互联网现在进入了大数据时代,大数据是现在互联网的趋势,而hadoop就是大数据时代里的核心技术,但是hadoop的mapreduce操作专业性太强,所以facebook在这些基础上开发了h 阅读全文
摘要:
项目介绍 本项目我们使用明星搜索指数数据,分别统计出搜索指数最高的男明星和女明星。 数据集 明星搜索指数数据集,如下图所示。猛戳此链接下载数据集 思路分析 基于项目的需求,我们通过以下几步完成: 1、编写 Mapper类,按需求将数据集解析为 key=gender,value=name+hotInd 阅读全文
摘要:
默认情况下,Map 输出的结果会对 Key 进行默认的排序,但是有时候需要对 Key 排序的同时再对 Value 进行排序,这时候就要用到二次排序了。下面让我们来介绍一下什么是二次排序。 二次排序原理 我们把二次排序主要分为以下几个阶段。 Map 起始阶段 在Map阶段,使用 job.setInpu 阅读全文
摘要:
项目描述 现在假设有两个数据集:气象站数据库和天气记录数据库,并考虑如何合二为一。一个典型的查询是:输出气象站的历史信息,同时各行记录也包含气象站的元数据信息。 气象站和天气记录合并之后的示意图如下所示。 测试数据 启动Hadoop集群,然后在hdfs中创建join文件夹用于存放测试数据statio 阅读全文
摘要:
在关系型数据库中 Join 是非常常见的操作,各种优化手段已经到了极致。在海量数据的环境下,不可避免的也会碰到这种类型的需求, 例如在数据分析时需要连接从不同的数据源中获取到数据。不同于传统的单机模式,在分布式存储下采用MapReduce 编程模型,也有相应的处理措施和优化方法。 现在假设有两个数据 阅读全文