Hadoop初期学习和集群搭建

留给我学习hadoop的时间不多了，要提高效率，用上以前学的东西。hadoop要注重实战，把概念和原理弄清楚，之前看过一些spark，感觉都是一些小细节，对于理解hadoop没什么帮助。多看看资料，把基础打扎实吧。

1.首先就是hadoop的按装，分为a单机版b伪分布式c分布式,生产环境下都是用的分布式，但是既然要学习，又没有硬件资源，那就从最简单的单机版学起（这有没有类似于游戏啊）。我从最开始不知道虚拟机及其用途，后来安装了它，费了一番周折，再到最后开始用它做开发了，说明我知道的东西太少了，要多尝试。还有就是学习目标集中点，今天就是安装hadoop，而不要在学习的过程中发散，这样学习进度很慢，效果不是很好。等熟练了或许这个方法会好些。

2用于设置PATH和JAVA_HOME变量，添加以下命令到~/.bashrc文件。而不是在命令行添加。Esc+：+wq退出vim

3.但是在hadoop上运行的程序也是使用IDE开发出来的，hadoop是用java编写的，里面的逻辑结构是什么样的？可以有·那些更改，这些都要对源码熟悉。

-------------------------------hadoop集群搭建2019-------

　　看看官网的说法,FileSystem中的hadoop fs mv的用法和Linux中的mv的用法相同。这些要使用Hadoop提供的shell编程界面。

　　1、在机器上先搭建伪集群的，即配置namenode和datanode，这一步主要是ssh的配置，及hadoop-env.sh等的配置，参考博文。

　　2、在集群上搭建，主要就是配置ssh，使主机之间能够根据ip地址进行通讯，这设计到分布式软件的知识。其实它的的技术基础应该是ssh，就是使用公钥和私钥，然后远程免密登录。在这点上，linux确实做的比window好。

对于hadoop的输入和输出文件，有什么要求吗？

　　在掌握了java这门语言，然后学会了使用Spring框架。然后对于hadoop这种框架，感觉一点都不难，还有spark，也能够很容易的掌握。

　　hadoop中为我们提供了计算的框架和api，这就需要我们自己写数据预处理和后处理代码，也就是输入输出，hadoop为我们提供了常见的一些数据格式，比如Text，Image等。　　

安装了Eclipse及hadoop-eclipse-plugin后学着《hadoop权威指南》中的气温例子写了一个输出气温的程序，数据是我自己简单写的，但是输出却不是我预想的，这中间还有很多问题，比如数据格式，程序的执行原理。

1.报错：Type mismatch in key from map: expected org.apache.hadoop.io.Text, received,百度了一下，移除super.mapper(key,value,context)就可以了，在次标记一下。

posted @ 2018-05-07 11:18 懂得了才能做一些改变阅读(257) 评论(0) 编辑收藏举报

刷新页面返回顶部

自信

梦想能到达的地方,总有一天,脚步也能到达

Hadoop初期学习和集群搭建

公告