bingmous

欢迎交流,不吝赐教~

导航

win7下安装Hadoop

1 下载准备

  • 下载hadoop,官网用一个快一点的镜像,使用迅雷加速下载,二进制格式,解压目录:E:\hadoop\hadoop-2.9.2
  • 下载winutils,这个是别人编译好的hadoop的windows版本二进制文件,选择对应版本覆盖安装目录下对应目录
  • 下载jdk

2 配置环境变量

  • 添加环境变量HADOOP_HOME,E:\hadoop\hadoop-2.9.2;JAVA_HOME,E:\Java\jdk1.8.0_231
  • 在系统Path环境变量中添加,%HADOOP_HOME%\bin,%HADOOP_HOME%\sbin,%JAVA_HOME%\bin,%HADOOP_HOME%\jre\bin

注意:hadoop必须要和Java JDK在同一个盘下,否则找不到JAVA_HOME。可以将JDK拷贝到hadoop所在盘并修改JAVA_HOME

3 cmd下测试

  • hadoop versioin
  • java -version

4 hadoop 基本文件配置

在安装目录\etc\hadoop下的四个xml文件 core-site.xml / hdfs-site.xml / mapred-site.xml / yarn-site.xml

注意:(没有mapred xml将mapred-site.xml.template去掉.template后缀变成xml)

注意使用utf-8编码保存,notepad++

  • core-site.xml
<configuration>
<!-- 指定namenode的地址 -->
	<property>
		<name>fs.defaultFS</name>
		<value>hdfs://localhost:9000</value>
	</property>

<!-- 指定使用hadoop时产生文件的存放目录 -->
	<property>
		<name>hadoop.tmp.dir</name>
		 <value>/E:/hadoop/hadoop-2.10.0/tmp</value>
	</property>

<!-- 设置检查点备份日志的最长时间 -->
	<property>
		<name>fs.checkpoint.period</name>
		<value>3600</value>
	</property>
</configuration>
  • hdfs-site.xml
<configuration>
<!-- 指定hdfs保存数据的副本数量 -->
	<property>
		<name>dfs.replication</name>
		<value>2</value>
	</property>

<!-- 指定hdfs中namenode的存储位置 -->
	<property>
		<name>dfs.namenode.name.dir</name>
		<value>/E:/hadoop/hadoop-2.9.2/tmp/dfs/namenode</value>
	</property>

<!-- 指定hdfs中datanode的存储位置 -->
	<property>
		<name>dfs.datanode.data.dir</name>
		<value>/E:/hadoop/hadoop-2.9.2/tmp/dfs/datanode</value>
	</property>
</configuration>
  • mapred-site.xml
<configuration>
<!-- 告诉hadoop以后MR运行在yarn上 -->
	<property>
		<name>mapreduce.framework.name</name>
		<value>yarn</value>
	</property>
</configuration>
  • yarn-site.xml
<configuration>

<!-- Site specific YARN configuration properties -->
<!-- namenodeManager获取数据的方式是shuffle -->
	<property>
		<name>yarn.nodemanager.aux-services</name>
		<value>mapreduce_shuffle</value>
	</property>

    <property>
       <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
       <value>org.apache.hadoop.mapred.ShuffleHandler</value>
    </property>
<!-- yarn打印工作日志 -->
	<property>
		<name>yarn.log-aggregation-enable</name>
		<value>true</value>
	</property>
</configuration>

注意: 设置一下参数后resourcemanager无法启动,待解决

<!-- 指定yarn的老大(ResourceManager)的地址 -->
	<property>
		<name>yarn.resourcemanager.hostname</name>
		<value>master</value>
	</property>

5 测试是否搭建成功

  • 格式化系统文件,cmd下,hdfs namenode -format(如果没有添加bin到path,也可以cd到安装目录下的bin)
  • 启动hadoop(如果没有添加sbin到path,也可以cd到安装目录下的sbin)

6 测试hadoop自带的demo,计算单词数量

  • 创建一个txt文件test.txt
  • 在dfs创建一个文件夹,hadoop fs -mkdir /test
  • 将文本文件上传到dfs,hadoop fs -put 文件目录\test.txt /test/input
  • 查看:hadoop fs -ls 目录
  • hadoop jar jar包路径 /test/input /test/output

https://blog.csdn.net/Ryan_92/article/details/81319134

 

  • jps,显示所有当前java进程pid的命令

 

 

 

 

 

 

 

 

posted on 2020-03-25 12:45  Bingmous  阅读(58)  评论(0编辑  收藏  举报