【云计算】Hadoop 0.20.1 + Hive 0.4.1 + Fedora 12 终极配置
1. JDK配置
1 从Sun的网站下载JDK,注意有两个linux下的安装包。一个是rpm,一个是普通的bin,二者均可。
2 进入下载的目录,安装jdk。(不会的就google)。
3 等待其安装结束,不必配置其他信息。在Fedora 12中djk的环境变量均已自动配置。
注意:请先卸载系统自带的openJDK,保险一些。可从安装包管理器中卸载。
2. Hadoop配置
2.1 虚拟机配置
一台NameNode,两台DataNode。
2.2 配置总体过程
以下记录配置过程以及要点。
2.2.1 主要配置内容
配置可分为两类:系统配置和Hadoop配置,主要内容包括主机配置、SSH和Hadoop三部分内容。
2.2.1.1 系统配置
系统配置包括主机名、hosts、防火墙、SSH的配置。
2.2.1.1.1 主机名(各个机器均需配置)
l 修改主机名,避免后续SSH生成的密钥中含有localhost而造成的密钥混乱
l 配置过程
n 以root身份登录系统
n vi /etc/sysconfig/network
n 修改HOSTNAME的值,随意取。
n 保存并重启系统
2.2.1.1.2 Hosts文件(各个机器均需配置)
因为Hadoop通过SSH进行主机间的认证和通信,所以需要添加Hadoop中各类型节点的ip地址和机器名。
l 配置过程
n 以root身份登录系统
n vi /etc/hosts
n 添加所需节点的ip地址和机器名
n 保存并退出
n ping各个机器名,测试是否成功。
2.2.1.1.3 防火墙配置(各个机器均需配置)
Datanode在连接Namenode时,可能会被防火墙阻拦,故关闭Namenode的防火墙:
l 以root身份登录
l 关闭防火墙
service iptables stop
service ip6tables stop
2.2.1.1.4 SSH配置(各个机器均需配置)
因为Hadoop通过SSH进行主机间的认证和通信,需要配置各个机器的SSH,包括生成和发布密钥。需要注意的是:
(1) SSH密钥和机器名相关,故只要机器名发生变化,均需要重新生成密钥
(2) 密钥的所有者需要是当前登录用户。如果不是,需要修改authorized_keys的权限
l 生成密钥
n ssh-keygen –t <rsa/dsa>(可选择rsa或dsa加密方式)
n 根据屏幕提示进行操作。(均留空即可)
n 如果.ssh目录下不存在authorized_keys文件,只需:
cp .ssh/id_rsa.pub .ssh/authorized_keys
n 如果已存在authorized_keys文件,将新生成的公钥附加到authorized_keys文件中:
cat .ssh/id_rsa.pub >> .ssh/authorized_keys
l 发布密钥
将.ssh/authorized_keys拷贝到所需的机器上:
scp .ssh/authorized_keys username@machinename:/your/dictionary
l 以root身份登录机器
l 启动/重启sshd服务
启动:service sshd start
重启:service sshd restart
停止:service sshd stop
2.2.1.2 Hadoop配置、
Hadoop配置包括以下内容:Hadoop环境配置和运行期配置。
2.2.1.2.1 Hadoop环境配置
环境配置包括配置master、slaves、core-site.xml和hadoop-env.sh文件的配置。
2.2.1.2.1.1 master
master文件指明了namenode节点的机器名,故只需将namenode节点的机器名添加到此文件中。
2.2.1.2.1.2 slaves
Slaves文件指明了包括了datanode节点在内的其他节点的机器名,故只需将这类节点的机器名添加到次文件中。
2.2.1.2.1.3 core-site.xml
主要的配置,需要指明hdfs文件系统以及jobtracker等节点的机器名和端口号。
2.2.1.2.1.4 hadoop-env.sh
至少配置JAVA_HOME,建议书写绝对路径代替环境变量的写法。
2.2.1.2.2 运行期配置
运行期配置包括:文件系统格式化和各个节点的启动。
2.2.1.2.2.1 文件系统格式化
在修改Hadoop配置文件后,建议重新格式化Hadoop文件系统:
bin/hadoop namenode –format
2.2.1.2.2.1 启动Hadoop
l 启动: ./bin/start-all.sh
l 日志在logs目录下。
3. Hive配置
基本不用什么配置,下载 -》 解压,配置环境变量:
Export HIVE_HOME=/your/hive/install/path
1 启动Hive。
Hadoop启动成功后,继续执行$HIVE_HOME/bin/hive,即可。
2 使用Hive hwi的web界面
执行$HIVE_HOME/bin/hive –service hwi,即可。
在浏览器中访问该地址:http://your_hive_server_ip:9999/hwi