Ubuntu16.04 hadoop 伪分布式 的文件配置
首先需要完成java环境的配置,这里就省略了。
完成 hadoop 伪分布(pesudo distribution),只需配置下面 五 个文件即可:
- hadoop-env.sh
- core-site.xml
- hdfs-site.xml
- yarn-site.xml
- mapred-site.xml
这些配置文件都在解压后的hadoop目录中的 etc/hadoop 目录下,下面是它们的具体作用和配置:
1 hadoop-env.sh
这个用来配置 Java 环境的路径,在hadoop-env.sh中找到这一行:
export JAVA_HOME=
并将等号后面的内容替换成自己的java环境路径即可,如果不确定,执行sudo update-alternatives --config java 就能看到了,如果安装了多个java环境,可以从这儿选择某一个,每个条目的路径就是所需的java环境了, 比如我的执行结果是这样的:
我目前用的是第二个条目的java环境,取bin之前的路径就是: /usr/lib/jvm/java-8-openjdk-amd64/jre
2 core-site.xml
指定HDFS的通信地址和缓存存储的路径:
在core-site.xml的 configure 中分别加入这些片段,如下:
<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://localhost:9000</value> </property> <property> <name>hadoop.tmp.dir</name> <value>/home/hadoop/hadoop_installs/tmp</value> </property> </configuration>
3 hdfs-site.xml
指定hdfs的副本数量,这里就假设是 1 个:
<configuration> <property> <name>dfs.replication</name> <value>1</value> </property> </configuration>
4 yarn-site.xml
yarn 是hadoop的统一资源管理器:
<configuration> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> <property> <name>yarn.resourcemanager.hostname</name> <value>localhost</value> </property> </configuration>
5 mapred-site.xml
mapred是一种计算模型, 这里就指定 它使用yarn 来管理资源
<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration>
这里要把原来的mapred-site.xml.template 改成 mapred-site.xml 再编辑.
6 参考博客:
https://www.cnblogs.com/gyouxu/p/4183417.html