hadoop的实现-序

捣鼓hadoop有一段时间了，由于工作的内容就是hadoop平台，但是由于开始对hadoop一无所知，必须在网上寻找各种信息学习hadoop，学习的过程中，发现hadoop管理运维的文章，网上还是挺丰富的，但是对于hadoop实现细节这块，很多是源码分析，这对于初学者来讲很是痛苦，包括本人，要了解hadoop实现细节，也必须看源码，

实际上，我最开始不是为了读源码，我只是感兴趣hadoop的实现细节，详细运作流程，代码因为是我对某个细节感兴趣，再去仔细阅读了。例如我负责hadoop平台，里面就有重要数据，HDFS与传统的存储不同，一旦namenode丢失数据，会造成不会恢复的灾难，保护这个数据，是我的重要工作，而我是为了更好的保证HDFS数据的可靠性，我需要的是知道HDFS的实现细节，我可以对症下药做备份，做还原，而不是看源码。

但是很可惜，我没发现有讲hadoop细节比较详细，却不以源码为主的文章，本系列文章就是为了讲hadoop实现细节为主，源码为辅的文章。

希望本文，能给那些不想先伤脑筋读源码，却想知道hadoop实现细节的IT人士提供微薄之力。

本系列博客，分为入门篇和进阶篇，入门篇讲解hadoop的HDFS和mapred的详细运作流程，和对应的关键类(不会有详细的代码),让初学者对hadoop可以快速了解hadoop的框架，并选择自己感兴趣的模块去详细阅读源码。进阶篇会讲解hadoop除了基本流程以外又比较重要的一些模块的实现。

本系类博客，都是基于apache hadoop 1.02的源码实现做讲解。

本文适用于，已经开始使用hadoop，又想了解hadoop实现细节的人。

posted on 2012-06-09 21:47 ggjucheng 阅读(1512) 评论(0) 编辑收藏举报

刷新页面返回顶部

简单，可复制

公告