捣鼓hadoop有一段时间了,由于工作的内容就是hadoop平台,但是由于开始对hadoop一无所知,必须在网上寻找各种信息学习hadoop,学习的过程中,发现hadoop管理运维的文章,网上还是挺丰富的,但是对于hadoop实现细节这块,很多是源码分析,这对于初学者来讲很是痛苦,包括本人,要了解hadoop实现细节,也必须看源码,
实际上,我最开始不是为了读源码,我只是感兴趣hadoop的实现细节,详细运作流程,代码因为是我对某个细节感兴趣,再去仔细阅读了。例如我负责hadoop平台,里面就有重要数据,HDFS与传统的存储不同,一旦namenode丢失数据,会造成不会恢复的灾难,保护这个数据,是我的重要工作,而我是为了更好的保证HDFS数据的可靠性,我需要的是知道HDFS的实现细节,我可以对症下药做备份,做还原,而不是看源码。
但是很可惜,我没发现有讲hadoop细节比较详细,却不以源码为主的文章,本系列文章就是为了讲hadoop实现细节为主,源码为辅的文章。
希望本文,能给那些不想先伤脑筋读源码,却想知道hadoop实现细节的IT人士提供微薄之力。
本系列博客,分为入门篇和进阶篇,入门篇讲解hadoop的HDFS和mapred的详细运作流程,和对应的关键类(不会有详细的代码),让初学者对hadoop可以快速了解hadoop的框架,并选择自己感兴趣的模块去详细阅读源码。进阶篇会讲解hadoop除了基本流程以外又比较重要的一些模块的实现。
本系类博客,都是基于apache hadoop 1.02的源码实现做讲解。
本文适用于,已经开始使用hadoop,又想了解hadoop实现细节的人。