Hadoop+hive+sqoop采坑笔记
1 软件包下载
我是在hyper-v虚拟机安装centos进行学习的,以下为所需的软件下载地址:
- java下载,直接百度java到oracle官网下载即可,我是用的是java1.8
- hadoop下载,直接到hadoop下载2.7.1版本的就行了
- hive下载,不晓得什么原因,我到apache官网下载速度超级慢,所以选用清华大学镜像下载
- sqoop下载,同样是选择清华大学镜像下载的,速度杠杠的
- mysql下载,直接到官网下载对应的rpm包,然后安装就行了
由于文件在windows系统上,将上述文件传输到centos系统
scp hadoop-2.7.1.tar.gz hive-1.2.2.tar.gz sqoop-1.4.7.tar.gz java1.8.tar.gz root@远程主机:/usr/local
2 安装
2.1 java安装
解压缩java包到/usr/local
下即可
tar -zxvf java1.8.tar.gz
通过vim /etc/profile
配置环境变量,加入以下内容
export JAVA_HOME=/usr/local/java
export PATH=$PATH:$JAVA_HOME/bin
2.2 hadoop安装
解压缩
tar -zxvf hadoop-2.7.1.tar.gz
2.3 配置
配置环境变量(vim /etc/profile
)
export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP/bin:$HADOOP_HOME/sbin
修改/usr/local/hadoop/etc/hadoop/hadoop-env.sh
文件中的JAVA_HOME
配置想为
JAVA_HOME=/usr/local/java
以下为四个xml
文件的修改
core-site.xml
<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
hdfs-site.xml
<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
mapreduce-site.xml
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
yarn-site.xml
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
2.4 启动hadoop
格式化并启动hdfs
hdfs namenode -format
start-hdfs.sh
使用jps
查看是否启动成功
启动yarn
start-yarn.sh
同样的使用jps
命令查看是否有resourceMnager
等进程
上述验证成功的方式还有:
- http://主机IP:50070 查看hdfs是否OK
- http://主机IP:8088 查看Yarn是否OK
2.5 安装hive
这里先不用mysql
作为metadata
的存放数据库,就是用内置的derby
数据库,先进行如下配置:
修改conf/hive-env.sh
,默认为conf/hive-env.sh.template
cp hive-env.sh.template hive.env.sh
配置上述文件中的HADOOP_HOME
环境变量为hadoop
安装目录
修改conf/hive-site.xml
,默认为hive-default.xml.template
,复制为hive-site.xml
修改为如下内容,不然会在操作hive时候提醒要你schematool --initialize --dbtype
之类的异常:
<property>
<name>hive.metastore.schema.verification</name>
<value>false</value>
</property>
<property>
<name>datanucleus.schema.autoCreateAll</name>
<value>true</value>
</property>
2.6 验证hive安装成功
直接在命令行中输入hive
命令,然后在hive客户端中
hive> show databases
显示出但当前默认的default数据库就表示hive安装成功了
2.7 安装sqoop工具
解压sqoop到/usr/local
目录下,修改配置文件conf/sqoop-env.sh
# 复制sqoop-env-template.sh
cp conf/sqoop-env-template.sh conf/sqoop-env.sh
将修改三项设置以下:
- HADOOP_COMMON_HOME="hadoop安装目录"
- HADOOP_MAPRED_HOM="hadoop安装目录"
- HIVE_HOME="Hive安装目录"
然后将hive/lib
下的hive-common.*.jar
和hive-exec.*.jar
复制到sqoop/lib
目录下,就搞定了