【云计算】Hadoop 0.20.1 + Hive 0.4.1 + Fedora 12 终极配置

 

1. JDK配置

 

1       从Sun的网站下载JDK,注意有两个linux下的安装包。一个是rpm,一个是普通的bin,二者均可。

 

2       进入下载的目录,安装jdk。(不会的就google)。

 

3       等待其安装结束,不必配置其他信息。在Fedora 12中djk的环境变量均已自动配置。

 

注意:请先卸载系统自带的openJDK,保险一些。可从安装包管理器中卸载。

 

2. Hadoop配置

 

2.1 虚拟机配置

 

    一台NameNode,两台DataNode。

 

2.2 配置总体过程

 

    以下记录配置过程以及要点。

 

2.2.1 主要配置内容

 

    配置可分为两类:系统配置和Hadoop配置,主要内容包括主机配置、SSH和Hadoop三部分内容。

 

2.2.1.1 系统配置

 

    系统配置包括主机名、hosts、防火墙、SSH的配置。

 

2.2.1.1.1 主机名(各个机器均需配置)

 

l  修改主机名,避免后续SSH生成的密钥中含有localhost而造成的密钥混乱

 

l  配置过程

 

n  以root身份登录系统

 

n  vi /etc/sysconfig/network

 

n  修改HOSTNAME的值,随意取。

 

n  保存并重启系统

 

2.2.1.1.2 Hosts文件(各个机器均需配置)

 

因为Hadoop通过SSH进行主机间的认证和通信,所以需要添加Hadoop中各类型节点的ip地址和机器名。

 

l  配置过程

 

n  以root身份登录系统

 

n  vi /etc/hosts

 

n  添加所需节点的ip地址和机器名

 

n  保存并退出

 

n  ping各个机器名,测试是否成功。

 

2.2.1.1.3 防火墙配置(各个机器均需配置)

 

Datanode在连接Namenode时,可能会被防火墙阻拦,故关闭Namenode的防火墙:

 

l  以root身份登录

 

l  关闭防火墙

 

service iptables stop

 

service ip6tables stop

 

2.2.1.1.4 SSH配置(各个机器均需配置)

 

因为Hadoop通过SSH进行主机间的认证和通信,需要配置各个机器的SSH,包括生成和发布密钥。需要注意的是:

 

(1)        SSH密钥和机器名相关,故只要机器名发生变化,均需要重新生成密钥

 

(2)        密钥的所有者需要是当前登录用户。如果不是,需要修改authorized_keys的权限

 

l  生成密钥

 

n  ssh-keygen –t <rsa/dsa>(可选择rsa或dsa加密方式)

 

n  根据屏幕提示进行操作。(均留空即可)

 

n  如果.ssh目录下不存在authorized_keys文件,只需:

 

cp .ssh/id_rsa.pub .ssh/authorized_keys

 

n  如果已存在authorized_keys文件,将新生成的公钥附加到authorized_keys文件中:

 

cat  .ssh/id_rsa.pub >> .ssh/authorized_keys

 

l  发布密钥

 

将.ssh/authorized_keys拷贝到所需的机器上:

 

scp .ssh/authorized_keys username@machinename:/your/dictionary

 

l  以root身份登录机器

 

l  启动/重启sshd服务

 

启动:service sshd start

 

重启:service sshd restart

 

停止:service sshd stop

 

2.2.1.2 Hadoop配置、

 

Hadoop配置包括以下内容:Hadoop环境配置和运行期配置。

 

2.2.1.2.1 Hadoop环境配置

 

环境配置包括配置master、slaves、core-site.xml和hadoop-env.sh文件的配置。

 

2.2.1.2.1.1 master

 

master文件指明了namenode节点的机器名,故只需将namenode节点的机器名添加到此文件中。

 

2.2.1.2.1.2 slaves

 

Slaves文件指明了包括了datanode节点在内的其他节点的机器名,故只需将这类节点的机器名添加到次文件中。

 

2.2.1.2.1.3 core-site.xml

 

主要的配置,需要指明hdfs文件系统以及jobtracker等节点的机器名和端口号。

 

2.2.1.2.1.4 hadoop-env.sh

 

至少配置JAVA_HOME,建议书写绝对路径代替环境变量的写法。

 

2.2.1.2.2 运行期配置

 

运行期配置包括:文件系统格式化和各个节点的启动。

 

2.2.1.2.2.1 文件系统格式化

 

在修改Hadoop配置文件后,建议重新格式化Hadoop文件系统:

 

bin/hadoop namenode –format

 

2.2.1.2.2.1 启动Hadoop

 

l  启动: ./bin/start-all.sh

 

l  日志在logs目录下。

 

3. Hive配置

 

基本不用什么配置,下载 -》 解压,配置环境变量:

 

Export HIVE_HOME=/your/hive/install/path

 

1       启动Hive。

 

Hadoop启动成功后,继续执行$HIVE_HOME/bin/hive,即可。

 

2       使用Hive hwi的web界面

 

执行$HIVE_HOME/bin/hive –service hwi,即可。

 

在浏览器中访问该地址:http://your_hive_server_ip:9999/hwi

 

posted @ 2012-11-28 13:20  蜗牛123  阅读(244)  评论(0编辑  收藏  举报