随笔分类 - 01.Hadoop
摘要:上一篇,我们使用Maven构建了我的MapReduce程序,并且成功的运行了Job。那么大家可能会觉得为什么要这么做,有没有些理论依据,毕竟对hadoop的功能,特点有了了解后,做事情会心里稍微有点底。所以我们开始补些理论知识。
下面,我们就开始比较下Hadoop1.x与Hadoop2.x,感受下产品迭代的快乐。
申明,这一篇幅的图都是网上找的,就不打水印了,做人得厚道。
阅读全文
摘要:上一篇,我们编写了第一个MapReduce,并且成功的运行了Job,Hadoop1.x是通过ant来管理工程的,后来到了2.x就开始使用maven来管理了。
那么我们就有理由用maven来构建我们的Hadoop工程。
阅读全文
摘要:上一篇,我们的Eclipse插件搞定,那开始我们的MapReduce之旅。
在这里,我们先调用官方的wordcount例子,然后再手动创建个例子,这样可以更好的理解Job。
阅读全文
摘要:上一篇,我们的第一个Cluster搞定了,按平常的搭建集群来说,应该是至少3个DataNode的,应为默认的一份HDFS文件分成3份,所以最少也得3个DataNode的服务器,但由于本机就一块硬盘,内存也不大,所以,勉强的用2份。
在这里我们开始使用MyCluster了,有个Eclipse的插件用上去后,对HDFS文件的处理就比较方便了,我们开始吧!
阅读全文
摘要:上一篇,我们把Ambari的环境基本搭建好了,那么我们趁热打铁,打造我们的第一个HDP集群,这样,离我们下一步就越来越近了,在安装中还是会碰到很多想不到的情况的。所以,注意分析,找到解决方法很重要。
对了,这里我们还是多搭建了一个机器H34,怕集群机器不够。大家按照原来的步骤在做一个吧。
阅读全文
摘要:这里我们选择Ambari作为HDP的生产管理工具,如果我们一个个去配置HDP,很浪费时间,也很没有效率,成功率。生产环境也得尽量的自动化,让工具帮我们做大部分重复的工作,解放双手,解放时间,解放效率。
下面我们就Ambari的在线安装展开叙述,如果大家对离线安装感兴趣,到时候再加篇幅进行叙述。
阅读全文
摘要:我们已经准备好了网络访问,防火墙,Hosts,SSH等设置,下面我们根据上篇中的检查列表处理下剩下的内容,包括yum,时间同步,本地仓库等。
我们开始吧。
阅读全文
摘要:在上一步骤,我们已经准备了4台虚拟机,分别是H30,H31,H32,H33。其中H30为我们的Ambari服务器,H31为NameNode服务器,H32,H33为我们的DataNode服务器。
接下来,我们就得准备下这些虚拟机的Linux环境了。
阅读全文
摘要:我们对Hadoop有了初步的认知,得有NameNode,DataNode,NameNode和DataNode可以在一个机器上,但这样效果不好。由于本人的机器只有8G内存,所以这里就创建4个虚拟机一个专门给Ambari使用,一个给NameNode,另外两个给DataNode。
我们开始迈出第一步了。
阅读全文
摘要:该文章主要作为从零自学Hadoop系列文章的索引,方便大家阅览。
阅读全文
摘要:本系列主要介绍本人从零基础到基本入门Hadoop的一个历程,望博友们互勉,互助,给予一个来自远方的认可。
阅读全文