Hadoop+HBase+Spark+Hive环境搭建
本文源自:https://www.cnblogs.com/cheyunhua/p/10037162.html
0. 准备安装包
本文所需的系统镜像、大数据软件安装包、开发环境软件安装包等都可以在我的百度云盘中下载。
链接:系统镜像和各种大数据软件
密码:n2cn
1. Windows下安装Ubuntu双系统
Hadoop等大数据开源框架是不支持Windows系统的,所以需要先安装一个Linux双系统。当然,如果你有一台单独的电脑用来安装Ubuntu系统,就不需要安装双系统了。
双系统安装
请参考安装指南:
第一步:制定系统启动U盘
第二步:安装双系统
2. 搭建Hadoop平台
Hadoop是Apache 公司开发的一款可靠的、可扩展性的、分布式计算的开源软件。以Hadoop分布式文件系统(HDFS)和分布式运算编程框架(MapReduce)为核心,允许在集群服务器上使用简单的编程模型对大数据集进行分布式处理。下面,请跟着作者一步步搭建自己的Hadoop平台吧。
2.1更新源
在bash终端中运行如下shell指令,设置root用户密码,并切换到root用户
更新源
安装vim编译器
备份原始的官方源
删除原始的官方源
运行如下shell命令,重新创建sources.list文件
按 i 进入vim的编辑模式,复制下面的清华源到sources.list文件中,然后按 esc 退出编辑模式,最后输入:+wq ,按回车保存(也可以按shift + zz 进行保存)。
运行如下shell命令,完成源的更新
2.2 安装SSH、配置SSH无密码登陆
Ubuntu 默认已安装了 SSH client,此外还需要安装 SSH server:
安装后,修改sshd_config配置
在文件中设置如下属性:(按 / 可以进入搜索模式,按esc退出搜索模式)
重启ssh服务
重启后,可以使用如下命令登陆本机,但此时需要密码才能登陆:
首先退出刚才的 ssh,就回到了我们原先的终端窗口,然后利用 ssh-keygen 生成密钥,并将密钥加入到授权中:
在 Linux 系统中,~ 代表的是用户的主文件夹(root用户例外),即 “/home/用户名” 这个目录,如你的用户名为 ubuntu,则 ~ 就代表 “/home/ubuntu/”。 如果是root用户则~代表/root,此外,命令中的 # 后面的文字是注释,只需要输入前面命令即可。
此时再用 ssh localhost 命令,无需输入密码就可以直接登陆了。
2.3 安装JAVA环境
Java环境推荐使用 Oracle 的 JDK,首先,准备好文件 jdk-8u162-linux-x64.tar.gz,然后将文件移到/usr/local目录下:
解压文件
重命名文件夹为java
用vim打开/etc/profile文件(Linux下配置系统环境变量的文件)
按i进入编辑模式,在文件末尾添加如下JAVA环境变量
添加环境变量后,结果如下图所示,按 esc 退出编辑模式,然后输入:+wq ,按回车保存(也可以按shift + zz 进行保存)。
配置环境变量
最后,需要让该环境变量生效,执行如下代码:
检验JAVA是否安装成功
如果设置正确的话,java -version 会输出 java 的版本信息,java 和 javac 会输出命令的使用指导。
2.4 安装Hadoop
下载 hadoop-2.7.6.tar.gz 文件,然后将文件移到/usr/local目录下
解压
文件夹重命名为hadoop
配置环境变量,打开文件/etc/profile,添加如下Hadoop环境变量
同样,需要让该环境变量生效,执行如下代码:
输入如下命令来检查 Hadoop 是否可用,成功则会显示 Hadoop 版本信息:
2.5 Hadoop配置(单机伪分布式模式)
Hadoop 可以在单节点上以伪分布式的方式运行,Hadoop 进程以分离的 Java 进程来运行,节点既作为 NameNode 也作为 DataNode,同时,读取的是 HDFS 中的文件。
修改配置文件 core-site.xml (gedit /usr/local/hadoop/etc/hadoop/core-site.xml),将当中的
修改为下面配置:
同样的,修改配置文件 hdfs-site.xml(gedit /usr/local/hadoop/etc/hadoop/hdfs-site.xml):
修改文件 hadoop-env.sh (gedit /usr/local/hadoop/etc/hadoop/hadoop-env.sh),在文件开始处添加Hadoop和Java环境变量。
Hadoop配置文件说明
Hadoop 的运行方式是由配置文件决定的(运行 Hadoop 时会读取配置文件),伪分布式只需要配置 fs.defaultFS 和 dfs.replication 就可以运行(官方教程如此),不过若没有配置 hadoop.tmp.dir 参数,则默认使用的临时目录为 /tmp/hadoo-hadoop,而这个目录在重启时有可能被系统清理掉,导致必须重新执行 format 才行。所以我们进行了设置,同时也指定 dfs.namenode.name.dir 和 dfs.datanode.data.dir,否则在接下来的步骤中可能会出错。
配置完成后,执行 NameNode 的格式化:
启动hadoop
成功启动后,运行jps命令
如果安装成功,则会出现如下如下进程
hadoop成功启动后的进程
成功启动后,可以访问 Web 界面 http://localhost:50070 查看 NameNode 和 Datanode 信息,还可以在线查看 HDFS 中的文件。
2.6 Hadoop配置(集群模式)
2.6.1 设置静态IP(以主节点为例)
编辑文件/etc/network/interfaces
在文件后面添加如下配置信息(eth0是网卡名,需要根据实际情况更改)
编辑文件/etc/resolve.conf
在文件中添加如下配置信息
此dns在系统重启后会失效,编辑文件/etc/resolvconf/resolv.conf.d/base
添加如下内容,从而永久保存DNS配置
运行如下命令重启网络
如果重启后无效,则重启系统。
重启后如果发现找不到网卡,则启用系统托管网卡
修改
为
运行如下命令重启网络
如果重启后无效,则重启系统。
2.6.2 配置hosts文件(每台主机都要配置)
修改主机名
提示:主节点设置为master,从节点设置为slave1、slave2等等。
编辑文件/etc/hosts
将以下数据复制进入集群的各个主机中
注意:若再增加一个从机,则添加slave2的信息
使用以下指令在master主机中进行测试,可使用类似指令在slave1上测试:
如果ping的通,说明网络连接正常,否则请检查网络连接或者IP信息是否正确。
2.6.3 SSH无密码登陆节点(master上配置)
这个操作是要让 master 节点可以无密码 SSH 登陆到各个 slave 节点上。
首先生成 master 节点的公匙,在 master节点的终端中执行(因为改过主机名,所以还需要删掉原有的再重新生成一次):
让 master 节点需能无密码 SSH 本机,在 master 节点上执行:
完成后可执行 ssh master 验证一下(可能需要输入 yes,成功后执行 exit 返回原来的终端)。接着在 master 节点将上公匙传输到 slave1节点:
scp 是 secure copy 的简写,用于在 Linux 下进行远程拷贝文件,类似于 cp 命令,不过 cp 只能在本机中拷贝。执行 scp 时会要求输入 slave1 上 root 用户的密码。
接着在 slave1 节点上,将 ssh 公匙加入授权
如果有其他 slave 节点,也要执行将 master 公匙传输到 slave 节点、在 slave 节点上加入授权这两步。
这样,在 master 节点上就可以无密码 SSH 到各个 slave 节点了,可在 master 节点上执行如下命令进行检验:
如果不需要密码,则配置成功。
2.6.4 修改Hadoop配置文件(master上配置)
修改配置文件 core-site.xml (gedit /usr/local/hadoop/etc/hadoop/core-site.xml),将当中的
修改为下面配置:
同样的,修改配置文件 hdfs-site.xml(gedit /usr/local/hadoop/etc/hadoop/hdfs-site.xml):
修改文件 mapred-site.xml (可能需要先重命名,默认文件名为 mapred-site.xml.template),然后配置修改如下:
配置yarn-site.xml(gedit /usr/local/hadoop/etc/hadoop/yarn-site.xml)
修改文件 hadoop-env.sh (gedit /usr/local/hadoop/etc/hadoop/hadoop-env.sh),在文件开始处添加Hadoop和Java环境变量。
配置slaves(gedit /usr/local/hadoop/etc/hadoop/slaves),删除默认的localhost,增加从节点:
注意:若再增加一个从机,再添加slave2
配置好后,将 master 上的 /usr/local/hadoop 文件夹复制到各个节点上。
注意:每台从机上需要配置Hadoop的环境变量
在master节点上启动hadoop
成功启动后,运行jps命令
如果安装成功,master节点会有NameNode进程,slave节点会有DataNode进程。
成功启动后,可以访问 Web 界面 http://master:50070 查看 NameNode 和 Datanode 信息,还可以在线查看 HDFS 中的文件。
3. 安装HBase数据库
HBase是一个分布式的、面向列的开源数据库,源于Google的一篇论文《BigTable:一个结构化数据的分布式存储系统》。HBase以表的形式存储数据,表有行和列组成,列划分为若干个列族/列簇(column family)。欲了解HBase的官方资讯,请访问HBase官方网站。HBase的运行有三种模式:单机模式、伪分布式模式、分布式模式。
单机模式:在一台计算机上安装和使用HBase,不涉及数据的分布式存储;伪分布式模式:在一台计算机上模拟一个小的集群;分布式模式:使用多台计算机实现物理意义上的分布式存储。这里出于学习目的,我们只重点讨论伪分布式模式。
3.1. HBase安装
下载 hbase-2.0.0-bin.tar.gz 文件,并将文件移到/usr/local目录下
解压
文件夹重命名
将hbase下的bin目录添加到path中,这样,启动hbase就无需到/usr/local/hbase目录下,大大的方便了hbase的使用。教程下面的部分还是切换到了/usr/local/hbase目录操作,有助于初学者理解运行过程,熟练之后可以不必切换。
编辑/etc/profile文件
在/etc/profile文件尾行添加如下内容:
编辑完成后,按 esc 退出编辑模式,然后输入:+wq ,按回车保存(也可以按shift + zz 进行保存),最后再执行source命令使上述配置在当前终端立即生效,命令如下:
查看HBase版本,确定hbase安装成功,命令如下:
3.2. HBase伪分布模式配置
配置/usr/local/hbase/conf/hbase-site.xml,打开并编辑hbase-site.xml,命令如下:
在启动HBase前需要设置属性hbase.rootdir,用于指定HBase数据的存储位置,因为如果不设置的话,hbase.rootdir默认为/tmp/hbase-${user.name},这意味着每次重启系统都会丢失数据。此处设置为HBase安装目录下的hbase-tmp文件夹即(/usr/local/hbase/hbase-tmp),添加配置如下:
打开文件(gedit /usr/local/hbase/conf/hbase-env.sh)添加java环境变量
3.3 HBase集群模式配置
修改master节点的配置文件hbase-site.xml(gedit /usr/local/hbase/conf/hbase-site.xml)
注意:若再增加一个从机,hbase.zookeeper.quorum 添加slave2
修改配置文件regionservers(gedit /usr/local/hbase/conf/regionservers),删除里面的localhosts,改为:
若再增加一个从机,添加slave2
传送Hbase至其它slave节点(从机不需下载安装包,由主机传送过去即可,从机环境变量需要配置),即将配置好的hbase文件夹传送到各个节点对应位置上:
注意:每台从机上需要配置HBase的环境变量
3.4 测试运行
首先切换目录至HBase安装目录/usr/local/hbase;再启动HBase。命令如下:
停止HBase运行,命令如下:
如果hbase启动成功,则使用jps命令会出现如下进程
主节点进程
从节点进程
4. 安装Spark内存计算引擎
Apache Spark 是一个新兴的大数据处理通用引擎,提供了分布式的内存抽象。Spark 最大的特点就是快,可比 Hadoop MapReduce 的处理速度快 100 倍。Spark基于Hadoop环境,Hadoop YARN为Spark提供资源调度框架,Hadoop HDFS为Spark提供底层的分布式文件存储。
4.1. Spark安装
Spark的安装过程较为简单,在已安装好 Hadoop 的前提下,经过简单配置即可使用,首先下载 spark-2.3.0-bin-hadoop2.7.tgz 文件,并将文件移到/usr/local目录下
解压
文件夹重命名
编辑/etc/profile文件,添加环境变量
在/etc/profile文件尾行添加如下内容:
编辑完成后,保存退出,再执行source命令使上述配置在当前终端立即生效,命令如下:
4.2. Spark单机配置
配置文件spark-env.sh
编辑spark-env.sh文件(vim ./conf/spark-env.sh),在第一行添加以下配置信息:
4.3. Spark集群配置
在master上配置文件spark-env.sh
编辑spark-env.sh文件(vim ./conf/spark-env.sh),在第一行添加以下配置信息:
保存并刷新配置:
配置从机列表:
在最后加上:
把主机的spark文件夹复制到从机,复制脚本如下:
注意:每台从机上需要配置Spark的环境变量
4.4 验证Spark安装和配置
通过运行Spark自带的示例,验证Spark是否安装成功。
运行结果如下图所示,可以得到π 的 14位小数近似值:
Spark Pi计算结果
在主机的浏览器输入http://master:8079(集群模式)或者http://localhost:8079(单机模式)就可以看到有两个节点在spark集群上。
5. 安装hive
Hive是一个架构在Hadoop之上的数据仓库基础工具,用来处理结构化数据,为大数据查询和分析提供方便。最初,Hive是由Facebook开发,后来由Apache软件基金会开发,并作为进一步将它作为名义下Apache Hive为一个开源项目。Hive 不是一个关系数据库,也不是一个设计用于联机事务处(OLTP)实时查询和行级更新的语言。简单的说,Hive就是在Hadoop上架了一层SQL接口,可以将SQL翻译成MapReduce去Hadoop上执行,这样就使得数据开发和分析人员很方便的使用SQL来完成海量数据的统计和分析,而不必使用编程语言开发MapReduce那么麻烦。
5.1. Hive安装
下载 apache-hive-1.2.2-bin.tar.gz 文件,并将文件移到/usr/local目录下
解压
文件夹重命名
编辑/etc/profile文件,配置环境变量
在/etc/profile文件尾行添加如下内容:
编辑完成后,保存退出,再执行source命令使上述配置在当前终端立即生效,命令如下:
5.2. 安装并配置MySQL
我们采用MySQL数据库保存Hive的元数据,而不是采用Hive自带的derby来存储元数据。ubuntu下Mysql的安装比较简单,直接运行如下命令。在安装过程中,会要求配置用户名和密码,这个一定要记住。
启动并登陆mysql shell
新建hive数据库
将hive数据库的字符编码设置为latin1(重要)
5.3. Hive配置
修改/usr/local/hive/conf下的hive-site.xml,执行如下命令:
上面命令是将hive-default.xml.template重命名为hive-default.xml,然后,使用vim编辑器新建一个配置文件hive-site.xml,命令如下:
在hive-site.xml中添加如下配置信息,其中:USERNAME和PASSWORD是MySQL的用户名和密码。
然后,按键盘上的“ESC”键退出vim编辑状态,再输入:wq,保存并退出vim编辑器。由于Hive在连接MySQL时需要JDBC驱动,所以首先需要下载对应版本的驱动,然后将驱动移动到/usr/local/hive/lib中。
启动hive(启动hive之前,请先启动hadoop集群)。
5.4. Spark和Hive的整合
Hive的计算引擎默认为MapReduce,如果想要用Spark作为Hive的计算引擎,可以参考文章编译Spark源码支持Hive并部署
6. 结语
本文介绍了大数据环境的搭建过程,旨在让学弟学妹们少踩坑。后面,作者将为大家奉献如何利用Java+Scala来开发大数据应用。如果觉得文章有用的话,别忘记点赞哦O(∩_∩)O~!
----------------------------------------------------------
《高性能SQL调优精要与案例解析》
blog1:http://www.cnblogs.com/lhdz_bj
blog2:http://blog.itpub.net/8484829
blog3:http://blog.csdn.net/tuning_optmization