搭建Hadoop 伪分布式环境

搭建 Hadoop 伪分布式环境

教程环境和说明

软硬件环境
CentOS 7.2 64 位
OpenJDK- 1.8
关于本教程的说明
云实验室云主机自动使用 root 账户登录系统，因此本教程中所有的操作都是以 root 用户来执行的。若要在自己的云主机上进行本教程的实验，为了系统安全，建议新建一个账户登录后再进行后续操作。
安装 SSH 客户端
安装SSH
安装SSH：
sudo yum install openssh-clients openssh-server
安装完成后，可以使用下面命令进行测试：
ssh localhost
输入 root 账户的密码，如果可以正常登录，则说明SSH安装没有问题。测试正常后使用 exit 命令退出ssh。
安装 JAVA 环境
安装 JDK
使用 yum 来安装1.8版本 OpenJDK：
sudo yum install java-1.8.0-openjdk java-1.8.0-openjdk-devel
安装完成后，输入 java 和 javac 命令，如果能输出对应的命令帮助，则表明jdk已正确安装。
配置 JAVA 环境变量
执行命令:
编辑 ~/.bashrc，在结尾追加：
export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk
保存文件后执行下面命令使 JAVA_HOME 环境变量生效:
source ~/.bashrc
为了检测系统中 JAVA 环境是否已经正确配置并生效，可以分别执行下面命令:
java -version
$JAVA_HOME/bin/java -version
若两条命令输出的结果一致，且都为我们前面安装的 openjdk-1.8.0 的版本，则表明 JDK 环境已经正确安装并配置。
安装 Hadoop
下载 Hadoop
本教程使用 hadoop-2.7 版本，使用 wget 工具在线下载（注：如果下载失败或报错，可以自己在网上找到国内其他一个镜像源下载 2.7 版本的 hadoop 即可，见网站http://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.7.4/hadoop-2.7.4.tar.gz）：
wget https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-2.7.4/hadoop-2.7.4.tar.gz
安装 Hadoop
将 Hadoop 安装到 /usr/local 目录下:
tar -zxf hadoop-2.7.4.tar.gz -C /usr/local
对安装的目录进行重命名，便于后续操作方便:
cd /usr/local
mv ./hadoop-2.7.4/ ./hadoop
检查Hadoop是否已经正确安装:
/usr/local/hadoop/bin/hadoop version
如果成功输出hadoop的版本信息，表明hadoop已经成功安装。
Hadoop 伪分布式环境配置
Hadoop伪分布式模式使用多个守护线程模拟分布的伪分布运行模式。
设置 Hadoop 的环境变量
编辑 ~/.bashrc，在结尾追加如下内容：
export HADOOP_HOME=/usr/local/hadoop
export HADOOP_INSTALL=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
使Hadoop环境变量配置生效:
source ~/.bashrc
修改 Hadoop 的配置文件
Hadoop的配置文件位于安装目录的 /etc/hadoop 目录下，在本教程中即位于 /url/local/hadoop/etc/hadoop 目录下，需要修改的配置文件为如下两个:
/usr/local/hadoop/etc/hadoop/core-site.xml
/usr/local/hadoop/etc/hadoop/hdfs-site.xml
编辑 core-site.xml，修改<configuration></configuration>节点的内容为如下所示：
示例代码：/usr/local/hadoop/etc/hadoop/core-site.xml
<configuration>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>file:/usr/local/hadoop/tmp</value>
        <description>location to store temporary files</description>
    </property>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
</configuration>
同理，编辑 hdfs-site.xml，修改<configuration></configuration>节点的内容为如下所示：
示例代码：/usr/local/hadoop/etc/hadoop/hdfs-site.xml
<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>file:/usr/local/hadoop/tmp/dfs/name</value>
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>file:/usr/local/hadoop/tmp/dfs/data</value>
    </property>
</configuration>
格式化 NameNode
格式化NameNode:
/usr/local/hadoop/bin/hdfs namenode -format
在输出信息中看到如下信息，则表示格式化成功:
Storage directory /usr/local/hadoop/tmp/dfs/name has been successfully formatted.
Exiting with status 0
启动 NameNode 和 DataNode 守护进程
启动 NameNode 和 DataNode 进程:
/usr/local/hadoop/sbin/start-dfs.sh
执行过程中会提示输入用户密码，输入 root 用户密码即可。另外，启动时ssh会显示警告提示是否继续连接，输入 yes 即可。
检查 NameNode 和 DataNode 是否正常启动:
jps
如果NameNode和DataNode已经正常启动，会显示NameNode、DataNode和SecondaryNameNode的进程信息:
[hadoop@VM_80_152_centos ~]$ jps
3689 SecondaryNameNode
3520 DataNode
3800 Jps
3393 NameNode
运行 Hadoop 伪分布式实例
Hadoop自带了丰富的例子，包括 wordcount、grep、sort 等。下面我们将以grep例子为教程，输入一批文件，从中筛选出符合正则表达式 dfs[a-z.]+ 的单词并统计出现的次数。
查看 Hadoop 自带的例子
Hadoop 附带了丰富的例子, 执行下面命令可以查看：
cd /usr/local/hadoop
./bin/hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.4.jar
在 HDFS 中创建用户目录
在 HDFS 中创建用户目录 hadoop：
/usr/local/hadoop/bin/hdfs dfs -mkdir -p /user/hadoop
准备实验数据
本教程中，我们将以 Hadoop 所有的 xml 配置文件作为输入数据来完成实验。执行下面命令在 HDFS 中新建一个 input 文件夹并将 hadoop 配置文件上传到该文件夹下：
cd /usr/local/hadoop
./bin/hdfs dfs -mkdir /user/hadoop/input
./bin/hdfs dfs -put ./etc/hadoop/*.xml /user/hadoop/input
使用下面命令可以查看刚刚上传到 HDFS 的文件:
/usr/local/hadoop/bin/hdfs dfs -ls /user/hadoop/input
运行实验
运行实验:
cd /usr/local/hadoop
./bin/hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.4.jar grep /user/hadoop/input /user/hadoop/output 'dfs[a-z.]+'
上述命令以 HDFS 文件系统中的 input 为输入数据来运行 Hadoop 自带的 grep 程序，提取其中符合正则表达式 dfs[a-z.]+ 的数据并进行次数统计，将结果输出到 HDFS 文件系统的 output 文件夹下。
查看运行结果
上述例子完成后的结果保存在 HDFS 中，通过下面命令查看结果:
/usr/local/hadoop/bin/hdfs dfs -cat /user/hadoop/output/*
如果运行成功，可以看到如下结果:
1       dfsadmin
1       dfs.replication
1       dfs.namenode.name.dir
1       dfs.datanode.data.dir
删除 HDFS 上的输出结果
删除 HDFS 中的结果目录:
/usr/local/hadoop/bin/hdfs dfs -rm -r /user/hadoop/output
运行 Hadoop 程序时，为了防止覆盖结果，程序指定的输出目录不能存在，否则会提示错误，因此在下次运行前需要先删除输出目录。
关闭 Hadoop 进程
关闭 Hadoop 进程：
/usr/local/hadoop/sbin/stop-dfs.sh
再起启动只需要执行下面命令：
/usr/local/hadoop/sbin/start-dfs.sh
部署完成
大功告成
注：本文来自腾讯云，更多体验请前往腾讯云部署实践。

部署过程中会遇到的问题

1、如何打开hadoop调试输出：

打开hadoop安装目录下的环境变量文件

vim  /usr/local/hadoop/etc/hadoop/hadoop-env.sh

在文件尾部添加以下：

export HADOOP_ROOT_LOGGER=DEBUG,console

2、hdfs dfs -ls报错：

17/10/19 16:03:19 WARN util.Nativhdfs dfs -ls
17/10/19 16:03:26 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
ls: `.': No such file or directory

执行以下添加环境变量：

export HADOOP_OPTS="-Djava.library.path=${HADOOP_HOME}/lib/native"

来自为知笔记(Wiz)

posted @ 2017-10-19 16:52 duicym 阅读(275) 评论(0) 编辑收藏举报

刷新页面返回顶部

duicym

对影三人

搭建Hadoop 伪分布式环境

搭建 Hadoop 伪分布式环境

教程环境和说明

软硬件环境

关于本教程的说明

安装 SSH 客户端

安装SSH

安装 JAVA 环境

安装 JDK

配置 JAVA 环境变量

安装 Hadoop

下载 Hadoop

安装 Hadoop

Hadoop 伪分布式环境配置

设置 Hadoop 的环境变量

修改 Hadoop 的配置文件

示例代码：/usr/local/hadoop/etc/hadoop/core-site.xml

示例代码：/usr/local/hadoop/etc/hadoop/hdfs-site.xml

格式化 NameNode

启动 NameNode 和 DataNode 守护进程

运行 Hadoop 伪分布式实例

查看 Hadoop 自带的例子

在 HDFS 中创建用户目录

准备实验数据

运行实验

查看运行结果

删除 HDFS 上的输出结果

关闭 Hadoop 进程

1、如何打开hadoop调试输出：

2、hdfs dfs -ls报错：

公告