初识hadoop

HDFS是Hadoop最主要的分布式存储系统。一个HDFS集群主要包括一个管理文件系统元信息的NameNode和多个存储数据的DataNode。

 

Hadoop的主要特征:

1 Hadoop非常适用于使用商业硬件做分布式存储和分布式计算的。hadoop有非常好的容错性,可伸缩性和极其简单的可扩展性。

2 HDFS是高度可配置的,HDFS的默认配置文件可以适应大部分的安装环境,只有非常大型的集群才需要优化配置文件的。

3 Hadoop使用java编写,支持绝大多数主流平台。

4 Hadoop支持使用类似shell的命令直接操作HDFS。

5 NameNode 和 DataNode 内置web服务器,通过这些服务器可以方便的检查集群的状态。

 

HDFS的主要特征:

0 NameNode, NameNode使用fsimage(命名空间最新的检查点)和edits进行命名空间内容的持久化。对HFDS文件系统的修改操作以日志形式追加到本机文件edits中。当NameNode启动时,它从fsimage读取当前HDFS的状态,然后合并fsimage和edits的内容。并且最新的状态写回到fsimage中,然后将HFDS的修改日志写到新的edits文件中。NameNode只有在启动的时候合并fsimage和edits文件,这样有两个副作用;第一,在一个业务繁忙的集群中,edits文件会变得非常大。第二,NameNode在下一次启动时,会花费很长的时间合并edits日志。

1 支持文件权限控制和授权操作。

2 支持机架感知(Rack awareness),在分配任务和申请存储时,考虑了结点的物理位置。

3 安全模式(Safemode),使用管理员模式对集群进行维护。

4 fsck,诊断文件系统的健康状态的工具,使用它查找丢失的文件和存储块。

5 fetchdt,获取授权序列号并把它存储到本地文件的工具。

6 负载均衡器(Balancer),当数据在DataNode中分布不均匀时,Balancer用来平衡集群的负载。

7 升级和回滚。

8 Secondary Namenode, 周期性的启动,检测命名空间的大小,保持包含HDFS修改记录的NameNode的大小在一定的范围之下。

9 Checkpoint Node, 周期性的对命名空间创建检查点。它从NameNode下载fsimage和edits到本地,并且合并。

可能是由于Secondary NameNode这个名字给人带来的混淆,Hadoop后面的版本(1.0.4 )建议不要使用Secondary NameNode,而使用CheckPoint Node。

10 Backup node, Secondary NameNode和CheckPoint Node都只是提供一个fsimage更新和检查点备份,并不提供NameNode 服务,当NameNode宕机的时候就会引起HDFS集群不可用。Backup Node提供一个真正意义上的备用节点,NameNode所有写操作都会实时将更新Log(edits文件数据)发送给Backup Node,Backup Node据此更新本机fsimage和edits文件,并在内存中维护和NameNode 一样的Matadata数据。

posted @ 2014-12-15 20:54  ruccsbingo  阅读(184)  评论(0编辑  收藏  举报