win7下安装Hadoop

1 下载准备

下载hadoop，官网用一个快一点的镜像，使用迅雷加速下载，二进制格式，解压目录：E:\hadoop\hadoop-2.9.2
下载winutils，这个是别人编译好的hadoop的windows版本二进制文件，选择对应版本覆盖安装目录下对应目录
下载jdk

2 配置环境变量

添加环境变量HADOOP_HOME，E:\hadoop\hadoop-2.9.2；JAVA_HOME，E:\Java\jdk1.8.0_231
在系统Path环境变量中添加，%HADOOP_HOME%\bin，%HADOOP_HOME%\sbin，%JAVA_HOME%\bin，%HADOOP_HOME%\jre\bin

注意：hadoop必须要和Java JDK在同一个盘下，否则找不到JAVA_HOME。可以将JDK拷贝到hadoop所在盘并修改JAVA_HOME

3 cmd下测试

hadoop versioin
java -version

4 hadoop 基本文件配置

在安装目录\etc\hadoop下的四个xml文件 core-site.xml / hdfs-site.xml / mapred-site.xml / yarn-site.xml

注意：（没有mapred xml将mapred-site.xml.template去掉.template后缀变成xml）

注意使用utf-8编码保存，notepad++

core-site.xml

<configuration>
<!-- 指定namenode的地址 -->
	<property>
		<name>fs.defaultFS</name>
		<value>hdfs://localhost:9000</value>
	</property>

<!-- 指定使用hadoop时产生文件的存放目录 -->
	<property>
		<name>hadoop.tmp.dir</name>
		 <value>/E:/hadoop/hadoop-2.10.0/tmp</value>
	</property>

<!-- 设置检查点备份日志的最长时间 -->
	<property>
		<name>fs.checkpoint.period</name>
		<value>3600</value>
	</property>
</configuration>

hdfs-site.xml

<configuration>
<!-- 指定hdfs保存数据的副本数量 -->
	<property>
		<name>dfs.replication</name>
		<value>2</value>
	</property>

<!-- 指定hdfs中namenode的存储位置 -->
	<property>
		<name>dfs.namenode.name.dir</name>
		<value>/E:/hadoop/hadoop-2.9.2/tmp/dfs/namenode</value>
	</property>

<!-- 指定hdfs中datanode的存储位置 -->
	<property>
		<name>dfs.datanode.data.dir</name>
		<value>/E:/hadoop/hadoop-2.9.2/tmp/dfs/datanode</value>
	</property>
</configuration>

mapred-site.xml

<configuration>
<!-- 告诉hadoop以后MR运行在yarn上 -->
	<property>
		<name>mapreduce.framework.name</name>
		<value>yarn</value>
	</property>
</configuration>

yarn-site.xml

<configuration>

<!-- Site specific YARN configuration properties -->
<!-- namenodeManager获取数据的方式是shuffle -->
	<property>
		<name>yarn.nodemanager.aux-services</name>
		<value>mapreduce_shuffle</value>
	</property>

    <property>
       <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
       <value>org.apache.hadoop.mapred.ShuffleHandler</value>
    </property>
<!-- yarn打印工作日志 -->
	<property>
		<name>yarn.log-aggregation-enable</name>
		<value>true</value>
	</property>
</configuration>

注意：设置一下参数后resourcemanager无法启动，待解决

<!-- 指定yarn的老大(ResourceManager)的地址 -->
	<property>
		<name>yarn.resourcemanager.hostname</name>
		<value>master</value>
	</property>

5 测试是否搭建成功

格式化系统文件，cmd下，hdfs namenode -format（如果没有添加bin到path，也可以cd到安装目录下的bin）
启动hadoop（如果没有添加sbin到path，也可以cd到安装目录下的sbin）
- cmd下，start-dfs，http://localhost:50070，查看namenode
- cmd下，start-yarn，http://localhost:8088/，查看资源管理器，http://localhost:19888/
- 或者start-all，会出现四个窗口，yarn-resourcemanage，yarn-nodemanage，hadoop datanode，hadoop namenode
- 对应关闭命令，stop-dfs，stop-yarn，stop-all

6 测试hadoop自带的demo，计算单词数量

创建一个txt文件test.txt
在dfs创建一个文件夹，hadoop fs -mkdir /test
将文本文件上传到dfs，hadoop fs -put 文件目录\test.txt /test/input
查看：hadoop fs -ls 目录
hadoop jar jar包路径 /test/input /test/output

https://blog.csdn.net/Ryan_92/article/details/81319134

jps，显示所有当前java进程pid的命令

posted on 2020-03-25 12:45 Bingmous 阅读(58) 评论(0) 编辑收藏举报

刷新页面返回顶部

bingmous

导航

公告