在 Windows 平台下部署 Hadoop 开发环境

魏仁言 2010.6.8

Hadoop简介

Hadoop 是一个开源的可运行于大规模集群上的分布式并行编程框架，由于分布式存储对于分布式编程来说是必不可少的，这个框架中还包含了一个分布式文件系统 HDFS( Hadoop Distributed File System ) 。也许到目前为止，Hadoop 还不是那么广为人知，其最新的版本号也仅仅是 0.20，距离 1.0 似乎都还有很长的一段距离，但提及 Hadoop 一脉相承的另外两个开源项目 Nutch 和Lucene ( 三者的创始人都是 Doug Cutting ), 那绝对是大名鼎鼎。Lucene 是一个用 Java 开发的开源高性能全文检索工具包，它不是一个完整的应用程序，而是一套简单易用的 API 。在全世界范围内，已有无数的软件系统，Web 网站基于 Lucene 实现了全文检索功能，后来 Doug Cutting 又开创了第一个开源的 Web 搜索引擎(http://www.nutch.org ) Nutch, 它在 Lucene 的基础上增加了网络爬虫和一些和 Web 相关的功能，一些解析各类文档格式的插件等，此外，Nutch中还包含了一个分布式文件系统用于存储数据。从 Nutch 0.8.0 版本之后，Doug Cutting 把Nutch 中的分布式文件系统以及实现 MapReduce 算法的代码独立出来形成了一个新的开源项Hadoop 。Nutch 也演化为基于 Lucene 全文检索以及 Hadoop 分布式计算平台的一个开源搜索引擎。

基于 Hadoop, 你可以轻松地编写可处理海量数据的分布式并行程序，并将其运行于由成百上千个结点组成的大规模计算机集群上。从目前的情况来看，Hadoop 注定会有一个辉煌的未来：" 云计算" 是目前灸手可热的技术名词，全球各大 IT 公司都在投资和推广这种新一代的计算模式，而Hadoop 又被其中几家主要的公司用作其" 云计算" 环境中的重要基础软件，如: 雅虎正在借助Hadoop 开源平台的力量对抗 Google, 除了资助 Hadoop 开发团队外，还在开发基于 Hadoop 的开源项目 Pig, 这是一个专注于海量数据集分析的分布式计算程序。Amazon 公司基于 Hadoop 推出了 Amazon S3 ( Amazon Simple Storage Service ) ，提供可靠，快速，可扩展的网络存储服务，以及一个商用的云计算平台 Amazon EC2 ( Amazon Elastic Compute Cloud ) 。在 IBM 公司的云计算项目--" 蓝云计划" 中，Hadoop 也是其中重要的基础软件。Google 正在跟IBM 合作，共同推广基于 Hadoop 的云计算。

准备：

1. Java 1.6 以上

2. Eclipse Europa 3.3.2

3. Cygwin

4. Hadoop-0.20.2

1. 安装 Cygwin

Hadoop 主要是在 Linux 平台下运行的，如果想在 Windows 平台下运行，你需要安装 Cygwin 才能运行，Hadoop 脚本。

a. 下载 Cygwin 安装包 (here .)

b. 运行安装包，你将要看到下图。

c. 安装时一定要确认选择“ openssh ”安装包。如下图：

d. 完成安装

2. 安装 SSH 守护进程

Hadoop 分布式运行需要 SSH 。所以这一部分介绍在 Cygwin 下配置 SSH 守护进程。

a. 打开 Cygwin 命令环境

b. 执行以下命令

        rywei@RYWEI$ chmod +r /etc/group
       rywei@RYWEI$ chmod +r /etc/passwd

rywei@RYWEI$ chmod +rwx /var

rywei@RYWEI$ ssh-host-config

c. · When asked if privilege separation should be used, answer no .

记着一定要答no, 否则用Hadoop-Ecliple Plugin 插件进行开发时，会提示你没有权限操作文件，不能写等错误。（我因为这个问题头痛了好长时间，最后才找到是这里出现问题的。）

· When asked if sshd should be installed as a service, answer yes .

· When asked about the value of CYGWIN environment variable enter ntsec .

d. 配置完后，启动 SSHD 守护进程

运行： n et start sshd 或者通过 Windows 服务，启动 CYGWINSSHD 服务 .

想要停止服务运行： n et stop sshd 就可以了

e. 生成密钥

$ ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa
$ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys
f. 测试

最后运行以下命令测试

ssh localhost

如果没有问题会提示以下内容:

The authenticity of host 'localhost (127.0.0.1)' can't be established.

RSA key fingerprint is 08:03:20:43:48:39:29:66:6e:c5:61:ba:77:b2:2f:55.

Are you sure you want to continue connecting (yes/no)? yes

Warning: Permanently added 'localhost' (RSA) to the list of known hosts.

rywei@localhost's password:

会提示输入你机子的登录密码，输入无误后，会出现文本图形，类似于欢迎的提示：

The Hippo says: Welcome to

如果你不想每次都要输入密码，可以执行以下命令即可

$ ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa
$ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys

3. Hadoop 安装配置

a. 从Hadoop 网站下载最新的安装包( 当前版本:hadoop-0.20.2)(here )

b. 解压hadoop-0.20.2 安装包到你的主目录(/home/username/)

修改conf/hadoop-env.sh 文件，将export JAVA_HOME 的值修改为你机上的jdk 安装目录，比如/cygdrive/d/tools/jdk1.6.0_03 ，/cygdrive 是Cygwin 安装成功后系统的根目录如果你的JDK 安装在“C:/Program Files/Java/jdk1.6.0_20 ” ，请用引号括住。

如：export JAVA_HOME='C:/Program Files/Java/jdk1.6.0_20'

c. 在Hadoop 主目录内创建logs 目录，用以存放Hadoop 日志信息

d. 配置Hadoop

Hadoop 可以用以下三种支持的模式中的一种启动 Hadoop 集群：

单机模式
伪分布式模式
完全分布式模式

单机模式的操作方法

默认情况下， Hadoop 被配置成以非分布式模式运行的一个独立 Java 进程。这对调试非常有帮助。

下面的实例将已解压的 conf 目录拷贝作为输入，查找并显示匹配给定正则表达式的条目。输出写入到指定的 output 目录。
$ mkdir input
$ cp conf/*.xml input
$ bin/hadoop jar hadoop-*-examples.jar grep input output 'dfs[a-z.]+'
$ cat output/*

伪分布式模式的操作方法

Hadoop 可以在单节点上以所谓的伪分布式模式运行，此时每一个 Hadoop 守护进程都作为一个独立的 Java 进程运行。

使用如下配置 :
conf/core-site.xml :

<name>fs.default.name</name>

<value>hdfs://localhost:9000</value>

</property>

</configuration>

conf/hdfs-site.xml :

<name>dfs.replication</name>

</property>

</configuration>

conf/mapred-site.xml :

<name>mapred.job.tracker</name>

<value>localhost:9001</value>

</property>

</configuration>

在 Cygwin 下必须设置中间的暂存目录，否则会出错的

在mapred-site.xml中：

添加:

<name>mapred.child.tmp</name>

<value>/home/hadoop-0.20.1/temp</value>

</property>

注：我就是忘记设置这个参数，代码总是不能成功运行, 产生如下错误：

10/05/04 09:15:50 WARN mapred.JobClient: Use GenericOptionsParser for parsing the arguments. Applications should implement Tool for the same.

10/05/04 09:15:50 INFO mapred.FileInputFormat: Total input paths to process : 4

10/05/04 09:15:51 INFO mapred.JobClient: Running job: job_201005040912_0002

10/05/04 09:15:52 INFO mapred.JobClient: map 0% reduce 0%

10/05/04 09:15:58 INFO mapred.JobClient: Task Id : attempt_201005040912_0002_m_000006_0, Status : FAILED

java.io.FileNotFoundException: File C:/tmp/hadoop-SYSTEM/mapred/local/taskTracker/jobcache/job_201005040912_0002/attempt_201005040912_0002_m_000006_0/work/tmp does not exist.

at org.apache.hadoop.fs.RawLocalFileSystem.getFileStatus(RawLocalFileSystem.java:420)

at org.apache.hadoop.fs.FilterFileSystem.getFileStatus(FilterFileSystem.java:244)

at org.apache.hadoop.mapred.TaskRunner.setupWorkDir(TaskRunner.java:520)

at org.apache.hadoop.mapred.Child.main(Child.java:143)

10/05/04 09:16:03 INFO mapred.JobClient: Task Id : attempt_201005040912_0002_m_000006_1, Status : FAILED

java.io.FileNotFoundException: File C:/tmp/hadoop-SYSTEM/mapred/local/taskTracker/jobcache/job_201005040912_0002/attempt_201005040912_0002_m_000006_1/work/tmp does not exist.

at org.apache.hadoop.fs.RawLocalFileSystem.getFileStatus(RawLocalFileSystem.java:420)

at org.apache.hadoop.fs.FilterFileSystem.getFileStatus(FilterFileSystem.java:244)

at org.apache.hadoop.mapred.TaskRunner.setupWorkDir(TaskRunner.java:520)

at org.apache.hadoop.mapred.Child.main(Child.java:143)

4. 执行

格式化一个新的分布式文件系统：
$ bin/hadoop namenode -format

启动 Hadoop 守护进程：
$ bin/start-all.sh

Hadoop 守护进程的日志写入到 ${HADOOP_LOG_DIR} 目录 ( 默认是 ${HADOOP_HOME}/logs ).

浏览 NameNode 和 JobTracker 的网络接口，它们的地址默认为：

NameNode - http://localhost:50070/
JobTracker - http://localhost:50030/

将输入文件拷贝到分布式文件系统：
$ bin/hadoop fs -put conf input

运行发行版提供的示例程序：
$ bin/hadoop jar hadoop-*-examples.jar grep input output 'dfs[a-z.]+'

查看输出文件：

将输出文件从分布式文件系统拷贝到本地文件系统查看：
$ bin/hadoop fs -get output output
$ cat output/*

或者

在分布式文件系统上查看输出文件：
$ bin/hadoop fs -cat output/*

完成全部操作后，停止守护进程：
$ bin/stop-all.sh

5. 安装 Hadoop plugin

在Hadoop 根目录里，contrib/eclipse-plugin 文件夹下有,Hadoop 在Eclipse 的插件hadoop-0.20.2-eclipse-plugin.jar 。将其拷贝到Eclipse 的plugins 目录下。

启动Eclipse 后，你将看到如下界面：

设置 Hadoop 主目录

点击 Eclipse 主菜单上 Windows->Preferences, 然后在左侧选择 Hadoop Home Directory, 设定你的 Hadoop 主目录, 如图一所示：

创立一个 MapReduce Project

点击 Eclipse 主菜单上 File->New->Project, 在弹出的对话框中选择 MapReduce Project, 输入project name 如 wordcount, 　然后点击 Finish 即可。, 如图所示：

此后，你就可以象一个普通的 Eclipse Java project 那样，添加入 Java 类，比如你可以定义一个 WordCount类。最简单的方法，就是将在Hadoop 主目录的src/example/ 下的WordCount 拷贝过来。

在 Eclipse 中运行

如图三所示，设定程序的运行参数: 输入目录和输出目录之后，你就可以在 Eclipse 中运行wordcount 程序了，当然，你也可以设定断点，调试程序。

注：/user/rywei/test 和/user/rywei/test1 为HDFS 文件系统的路径。/user/rywei/tes 为输入目录, /user/rywei/test1为执行输出目录。

在 Eclipse 设置 Hadoop Location

打开 Map/Reduce perspective, 在菜单内选中 open perspective icon ( ), 选择 "Other" 菜单， , 从perspectives 列表选中 " Map/Reduce " .

在左侧 Project Explorer 内， DFS Locations 内可以查看 HDFS 文件系统内的文件，可以进行新增，删除等操作。

Location Name -- localhost
Map/Reduce Master
- Host -- localhost
- Port -- 9001
DFS Master
- Check "Use M/R Master Host"
- Port -- 9000
User name -- User

注意：一定要设置Mapred.Child.Tmp 目录。例如：

Mapred.Child.Tmp=${HADOOPHOME}/temp

一切都设置完了，可以点击运行. 运行结果如下：

参考：

1.http://ebiquity.umbc.edu/Tutorials/Hadoop/00%20-%20Intro.html

2. 用 Hadoop 进行分布式并行编程 (http://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop1/index.html)

posted @ 2012-05-06 23:04 hibernate3例子阅读(613) 评论(0) 收藏举报

刷新页面返回顶部

在 Windows 平台下部署 Hadoop 开发环境