HDFS 基本原理学习总结

HDFS:hadoop distributed file system HDFS基本原理

 
通透性:应用程序和用户,访问网络上的文件系统,就像访问本地磁盘一样;
容错性:系统中的某些节点宕掉了,但是整体不应该有数据损失;
hdfs 是分布式文件系统的一种,适用于一次写入多次查询的情况,不支持并发,小文件不合适。
 
HDFS的架构
主从结构
        主节点,namenode(只有一个),维护整个文件系统的文件目录树,文件/目录的元信息和每个文件的对应的数据块列表。
        从节点,datanode(有多个)
        namenode的工作:(1)接收用户的操作请求;(2)维护文件系统的目录结构;(3)管理文件和block之间的关系,block和datanode之间的关系。
        datanode的工作:(1)存储文件;(2)文件被分成block存储在磁盘上;(3)为了保证数据的安全,文件会有多个副本;
 
MapReduce的架构
主从结构
        主节点,jobtracker(只有一个)
        从节点,tasktracker(有多个)
        jobtracker的工作:(1)接收客户提交的计算任务;(2)把计算任务分给tasktracker执行;(3)监控tasktracker的执行情况;
        tasktracker的工作:执行jobtracker分配的计算任务;(被监控,心跳机制,jobtracker隔段时间给jobtracker发送一个响应)

 
HDFS中datanode提供真实文件的存储,数据块(block)默认大小是64M,最基本的存储单位;不同于普通的文件系统,HDFS中,如果一个文件小于数据快的大小,并不占用整个数据快的存储空间;Replication属性,表示存储多个副本,默认是三个。
core-site.xml中配置的HDFS位置:
可以通过该路径直接查看datanode服务器的物理存储
 
测试datanode服务器block的大小;
.meta只是校验文件,blk_-4895094671805902459是数据文件,可以看出一个block的大小刚好是64M。
        
SecondaryNamenode 是high avaiable高可靠的一个解决方案,不支持热备份,需要手动配置。执行过程:从namenode上下载元数据信息(fsimage(元数据镜像文件,存储某段时间namenode内存元数据信息),edits(namenode的日志)),然后把二者进行合并,生成新的fsimage,在本地保存,并将其推送到namenode,同时重置namenode的edits. 默认安装在Namenode节点,但是不安全。





posted @ 2016-03-24 20:24  nwpulisz  阅读(1084)  评论(0编辑  收藏  举报