CentOS6.5x64搭建Hadoop环境

  首先总结一下之所以被搭建大数据环境支配的原因:浮躁。 总是坐不住,总是嫌视频太长,总是感觉命令太杂太多,所以就不愿去面对。

  在抖音上听到一句话:“为什么人们不愿吃学习的苦而能吃社会的苦? 因为学习的苦需要主动去吃,所以没人愿意,到了社会上,社会的苦不得不吃。”

  有些时候,有些坎坷,我们必须要亲身经历,就算你逃避,也终有一天会面对它。就像我,觉得教科书文字枯燥,不如看视频跟着敲直接。但是绕了一圈,终究我还是回归到了教科书。

  我发现白彦峰老师编的这本《大数据技术基础实验教程》真是一本神书!只要,你一步一步跟着做,别跑偏,保准没有Bug。

大致流程我分成了六件事情:

第一件事:配置VMWare Workstation的NAT模式的IP

需要资源:VMWare Workstations版本9及以上

这需要你掌握以下几个名词:

  1. 网络适配器   

    1.1 桥接模式   

    1.2 NAT模式   

    1.3 仅主机模式  

  2. 子网IP

  3. 子网掩码  

  4. 网关  

  5. DNS  

第二件事:手动配置IP

需要资源:CentOS6.5x64位操作系统

你需要掌握以下几个名词:  

  1. Linux操作系统  

  2. 32位、64位操作系统及应用软件  

  3. IPv4协议   

    3.1 DHCP获取IP   

    3.2 手动设置IP  

  4. /etc/hosts  

  5. /etc/sysconfig/network   

第三件事:安装JDK

需要资源:jdk1.7或jdk1.8或jdk11x64位安装包

你需要掌握以下几个名词:  

  1. Oracle公司  

  2. JDK版本  

  3. 环境变量   

    3.1 ~/.bash_profile、~/.bashrc、/etc/profile的区别   

    3.2 JAVA_HOME 和 PATH 的关系   

第四件事:SSH免密登录

需要资源:无

你需要掌握以下几个名词:  

  1. ssh协议  

  2. 授权文件authorized_keys及其文件权限600  

  3. 私钥id_rsa及公钥id_rsa.pub  

第五件事:安装配置Hadoop

需要资源:Hadoop-2.*x64位二进制安装包

你需要掌握以下几个名词:  

  1. Apache组织  

  2. Hadoop软件文件组成  

  3. 两个环境变量配置文件   

    3.1 Hadoop中配置JAVA环境变量文件:hadoop-env.sh   

    3.2 Yarn中配置JAVA环境变量文件  : yarn-env.sh  

  4. 四个必要的配置文件   

    4.1 核心组件配置文件: core-site.xml   

    4.2 文件系统配置文件: hdfs-site.xml   

    4.3 yarn配置文件:     yarn-site.xml   

    4.4 MapReduce配置文件:mapred-site.xml    

  5. 一个节点文件:slaves    

  6. ssh跨主机递归复制文件命令 scp -r

第六件事:启动集群

资源:三个主机

你需要掌握以下几个名词:  

  1. HDFS  

  2. namenode 的格式化  

  3. start-dfs.sh 命令  

  4. start-yarn.sh 命令

  5. jps命令    

    namenode   

    seconderynamenode   

    datanode   

    sourcemanager   

    nodemanager   

    jps  

  5. 端口50070、9000、18088  

  6. MapReduce实例

接下来说说我和Bug斗争的心酸血泪史(深夜胡话,只有我自己能看懂,建议略过):  

  第一件事:配置VMWare Workstation的NAT模式的IP  

  一开始我没有配workstation的IP,觉得默认就可以了,操作黑盒子的结果就是导致无知。

后来,我知道了1. 网络适配器,是一个驱动(软件),我Windows的网就经常坏掉,然后经常去禁用网络适配器。

后来,我知道了1.1 桥接模式、1.2 NAT模式、1.3 仅主机模式这三个网络适配器分配IP的方式。

后来,我知道了2. 子网IP、3. 子网掩码、4. 网关、5. DNS这几个是怎样结合起来构建整个网络系统的。  

  第二件事:手动配置IP  

  由于一开始没有配workstation的IP,直接导致了我没有去操作系统里面进行手动配置IP地址,同样是操作黑盒子的结果就是导致无知。

后来,我知道了3. IPv4协议

后来,我知道了3.1 DHCP获取IP与3.2 手动设置IP之间的区别

后来,我知道了4. /etc/hosts与5. /etc/sysconfig/network两个文件的作用

顺带了解了一下1. Linux操作系统与2. 32位、64位操作系统及应用软件的爱恨情仇  

  第三件事:安装JDK  

  由于我学习JAVA的时候就了解过1. Oracle公司、2. JDK版本、3. 环境变量, 所以在这件事上没吃多大的亏

唯一就是Windows上只分用户、系统两个环境变量 然而Linux中分三个环境变量:3.1 ~/.bash_profile、~/.bashrc、/etc/profile的区别  

  第四件事:SSH免密登录  

  同样是因为我之前学习Git的时候了解过1. ssh协议、2. 授权文件authorized_keys及其文件权限600、3. 私钥id_rsa及公钥id_rsa.pub 所以在这件事上是最轻松的。  

这里有个文件权限600,本可以说上一段的,但这里只需要背住就行,authorized_keys文件的权限只能是600,否则文件不管用。  

  第五件事:安装配置Hadoop  

  这件事先是从零开始听说Hadoop,

后来,我才知道Hadoop属于1. Apache

由于我跟着视频操作,老师带着了解过2. Hadoop软件文件组成及文件配置,还有ssh连接与文件传输,

所以这件事上也相对轻松,不过有个坑是由于我的不小心,把yarn-site.xml中配置的<value>master:18088 </value> 端口号后面都误加了一个空格,导致yarn的resourcemanager无法启动,

找了半天,最后还是找到日志文件,才看出一些端倪。 查看启动日志的方式是:

cd hadoop-2.8.5/logs/

tail -500 yarn-jmxx-resourcemanager-master.log

日志告诉我说,number format error ,就一个number提醒了我,是不是端口号写的有问题,一看果真是多了一个空格。

在此感激教会我看日志的人,其博客地址:https://blog.csdn.net/u010180815/article/details/79070870?utm_source=blogxgwz2  

  第六件事:启动集群  

  最后了,说两点:  

  一开始由于没有安装书上的配置方法配置,导致hdfs生成的data、logs文件总是权限不足,这就会导致namenode无法启动 需要先把data、logs文件夹删除,然后再进行namenode格式化,才能启动。

  还有一件事就是,电脑配置不高的,跑MapReduce的时候,参数设置成5-10就可以了,否则一个计算pi,需要跑上20分钟。  

结尾:

  搭建环境这么麻烦,真的不想再让你们遭罪,可以联系我,找我要搭建好的镜像资源。

  能面谈的面谈,面谈不了的发我QQ邮箱找我要:

  424171723@qq.com

 

  出门记得点赞哟!

posted @ 2018-10-18 01:37  littlecurl  阅读(370)  评论(0编辑  收藏  举报