单机安装Hadoop
单机安装hadoop
------------------------------------------------------------------
操作系统:centos7 64 位
hadoop :2.6.5
jdk
我们之前安装了 官方的jdk 1.8 不是centos自带的jdk
------查看环境变量配置文件是否包含jdk环境变量
cat /etc/profile ---查看全局环境变量配置文件
su hadoop
cat ~/.bash_profile ---查看局部环境变量配置文件
---查看当前linux系统所安装的java 来源哪个版本
rpm -qa | grep java
---卸载包命令
rpm -e 包名
---安装原厂oracle jdk
rpm -ivh jdk-7u80-linux-x64.rpm
-----配置环境变量------------
vi /etc/profile
JAVA_HOME=/usr/java/jdk1.7.0_80
CLASS_PATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
PATH=$JAVA_HOME/bin:$PATH
export JAVA_HOME CLASS_PATH PATH
---- 是全局变量生效---
source /etc/profile
---验证一下java 是否安装成功
java -version
如果正常显示是如下结果:
java version "1.7.0_80"
Java(TM) SE Runtime Environment (build 1.7.0_80-b15)
Java HotSpot(TM) 64-Bit Server VM (build 24.80-b11, mixed mode)
这样,Hadoop 所需的 Java 运行环境就好了。
--------------------------------演示从哪儿下载hadoop 然后下载之后上传到centos服务器---------------
然后解压缩hadoop
tar -zxf hadoop-2.6.5.tar.gz
我们选择将 Hadoop 安装至 /usr/local/ 中:
tar -zxf /tmp/hadoop-2.6.5.tar.gz -C /usr/local # 解压到/usr/local中
cd /usr/local/
mv ./hadoop-2.6.5/ ./hadoop # 将文件夹名改为hadoop
----创建hadoop用户--------------
useradd hadoop
----创建hadoop组 --------------
groupadd hadoop
chown -R hadoop:hadoop /usr/local/hadoop # 修改文件权限
Hadoop 解压后就能使用了。输入如下命令来检查 Hadoop 是否可用,成功则会显示 Hadoop 版本信息:
cd /usr/local/hadoop/bin
./hadoop version
-----------如果显示下面的结果 证明安装成功
Hadoop 2.7.1
Subversion https://git-wip-us.apache.org/repos/asf/hadoop.git -r 15ecc87ccf4a0228f35af08fc56de536e6ce657a
Compiled by jenkins on 2015-06-29T06:04Z
Compiled with protoc 2.5.0
From source with checksum fc0a1a23fc1868e4d5ee7fa2b28a58a
This command was run using /usr/local/hadoop/share/hadoop/common/hadoop-common-2.7.1.jar
------------修改centos7 主机名为n1----------
hostnamectl set-hostname --static n1
----修改hosts表----
vi /etc/hosts
192.168.146.128 n1
---------------------------------------演示hadoop自带的mapredue例子中的grep或者wordcount--------------------
Hadoop 默认模式为非分布式模式,无需进行其他配置即可运行。非分布式即单 Java 进程,方便进行调试。
现在我们可以执行例子来感受下 Hadoop 的运行。Hadoop 附带了丰富的例子
(运行 ./bin/hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0.jar 可以看到所有例子),
包括 wordcount、terasort、join、grep 等。
在此我们选择运行 grep 例子,我们将 input 文件夹中的所有文件作为输入,
筛选当中符合正则表达式 dfs[a-z.]+ 的单词并统计出现的次数,最后输出结果到 output 文件夹中。
cd /usr/local/hadoop
mkdir ./input
cp ./etc/hadoop/*.xml ./input # 将配置文件作为输入文件
./bin/hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar grep ./input ./output 'dfs[a-z.]+'
cat ./output/* # 查看运行结果
---使用hadoop的例子hadoop-examples-2.6.5.jar里边的程序grep来执行查询dfs开头后面是包含从a到z的字符串的单词
-----进入到bin文件夹下
cd /usr/local/hadoop/bin
./hadoop jar /usr/local/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar grep /usr/local/hadoop/input /usr/local/hadoop/output 'dfs[a-z.]+'
执行成功后如下所示,输出了作业的相关信息,输出的结果是符合正则的单词 dfsadmin 出现了1次
---查看执行结果
cd /usr/local/hadoop/output
cat *
---------查看执行结果
cd /usr/local/hadoop
cat ./output/* # 查看运行结果
--------------------------------------------------
./hadoop jar /usr/local/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar
./hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar wordcount ./input ./output333
./hadoop jar /usr/local/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar wordcount /usr/local/hadoop/input /usr/local/hadoop/output333
1.
cd /usr/local/hadoop
mkdir input
cd input
vi test.txt
hello world
hello lisan
hello sangyang
hello wanghong
hello meimei
-
cat ./output/* # 查看运行结果
执行成功后如下所示,输出了作业的相关信息,输出的结果是符合正则的单词hello出现了5次
./bin/hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.4.jar wordcount ./input ./output
注意,Hadoop 默认不会覆盖结果文件,因此再次运行上面实例会提示出错,需要先将 ./output 删除。
rm -rf ./output
---------------------------------------
单机模式
(不需要做任何配置,但不启动任何dfs和mapreduce daemon进程)
-----------讲解hadoop的常用配置文件core-site.xml,hdfs-site.xml,mapred-site.xml
获取默认配置
配置hadoop,主要是配置core-site.xml,hdfs-site.xml,mapred-site.xml三个配置文件,默认下来,
这些配置文件都是空的,所以很难知道这些配置文件有哪些配置可以生效,上网找的配置可能因为各个hadoop版本不同,
导致无法生效。浏览更多的配置,有两个方法:
1.选择相应版本的hadoop,下载解压后,搜索*.xml,找到core-default.xml,hdfs-default.xml,mapred-default.xml,
这些就是默认配置,可以参考这些配置的说明和key,配置hadoop集群。
2.浏览apache官网,三个配置文件链接如下:
http://hadoop.apache.org/common/docs/current/core-default.html
http://hadoop.apache.org/common/docs/current/hdfs-default.html
http://hadoop.apache.org/common/docs/current/mapred-default.html
这里是浏览hadoop当前版本号的默认配置文件,其他版本号,要另外去官网找。其中第一个方法找到默认的配置是最好的,
因为每个属性都有说明,可以直接使用。另外,core-site.xml是全局配置,hdfs-site.xml和mapred-site.xml分别是hdfs和mapred的局部配置。