第一篇：Hadoop简介

前言

本文大致介绍下Hadoop的一些背景知识，为后面深入学习打下铺垫。

Hadoop是一个开源分布式计算平台，它以HDFS文件系统和MapReduce计算框架为核心。

前者能够让用户使用一些廉价的硬件搭建出分布式系统，后者则能够让用户在不需要过多了解底层架构细节的情况下，开发并行分布式应用程序。

-- 具体含义以后会详细分析。

具体的来说，Hadoop的作用主要在于处理海量数据，这也是为什么大数据技术中常常提到这个概念的原因。

更具体的来说，雅虎通过它做Web搜索，跑广告系统；百度用它做搜索日志分析，网页数据挖掘；阿里用它存储海量的交易数据；移动研究院用它进行数据分析并对外提供服务。

很多人看好它会在更多领域(如银行，医院等)，更深层次，发挥出更大作用。

为什么Hadoop能够胜任这些工作？

有以下几个主要原因:

1. 高可靠性 - 能正确无误的处理数据

2. 高扩展性 - 可以方便的加入或屏蔽计算机集群中的节点

3. 高效性 - 能非常快速的处理数据

4. 高容错性 - 某个节点任务失败不会影响结果

除了HDFS文件系统和MapReduce计算架构两大核心，Hadoop还提供了其他一些项目提供更多服务，这些项目也不可或缺。　　

这些项目具体的使用方法，都是日后学习的重要内容，在此不做细致介绍。

首先介绍HDFS文件系统的体系结构：

HDFS采用M/S结构模型，Namenode作为主服务器，管理文件系统的命名空间和客户端对文件的访问操作；而Datanode管理存储的数据。

下为HDFS文件系统的体系结构图：

通常来说一个典型的集群环境是一台机器运行Namenode而其他每台机器运行一个Datanode。

这里再介绍下MapReduce计算架构的体系结构：

MapReduce其本质是一个非常简单易用的并行编程框架，它同样采用M/S模型，由一个单独运行在主节点的JobTracker和运行在各个从节点上的TaskTracker共同组成。

本文旨在描绘出Hadoop这头“大象”的具体轮廓，其细节在以后的文章中会具体分析，细细体会，实际应用。

posted @ 2017-05-19 14:19 穆晨阅读(1900) 评论(0) 收藏举报

刷新页面返回顶部