HDFS 基本原理学习总结

HDFS：hadoop distributed file system HDFS基本原理

通透性：应用程序和用户，访问网络上的文件系统，就像访问本地磁盘一样；

容错性：系统中的某些节点宕掉了，但是整体不应该有数据损失；

hdfs 是分布式文件系统的一种，适用于一次写入多次查询的情况，不支持并发，小文件不合适。

HDFS的架构

主从结构

主节点，namenode(只有一个)，维护整个文件系统的文件目录树，文件/目录的元信息和每个文件的对应的数据块列表。

从节点，datanode（有多个）

namenode的工作：(1)接收用户的操作请求；(2)维护文件系统的目录结构；(3)管理文件和block之间的关系，block和datanode之间的关系。

datanode的工作：(1)存储文件；(2)文件被分成block存储在磁盘上；(3)为了保证数据的安全，文件会有多个副本；

MapReduce的架构

主从结构

主节点，jobtracker(只有一个)

从节点，tasktracker（有多个）

jobtracker的工作：(1)接收客户提交的计算任务；(2)把计算任务分给tasktracker执行；(3)监控tasktracker的执行情况；

tasktracker的工作：执行jobtracker分配的计算任务；（被监控，心跳机制，jobtracker隔段时间给jobtracker发送一个响应）

HDFS中datanode提供真实文件的存储，数据块（block）默认大小是64M，最基本的存储单位；不同于普通的文件系统，HDFS中，如果一个文件小于数据快的大小，并不占用整个数据快的存储空间；Replication属性，表示存储多个副本，默认是三个。

core-site.xml中配置的HDFS位置：

可以通过该路径直接查看datanode服务器的物理存储

测试datanode服务器block的大小；

.meta只是校验文件，blk_-4895094671805902459是数据文件，可以看出一个block的大小刚好是64M。

SecondaryNamenode 是high avaiable高可靠的一个解决方案，不支持热备份，需要手动配置。执行过程：从namenode上下载元数据信息（fsimage(元数据镜像文件，存储某段时间namenode内存元数据信息),edits(namenode的日志)),然后把二者进行合并，生成新的fsimage，在本地保存，并将其推送到namenode,同时重置namenode的edits. 默认安装在Namenode节点，但是不安全。

来自为知笔记(Wiz)

posted @ 2016-03-24 20:24 nwpulisz 阅读(1107) 评论(0) 收藏举报

刷新页面返回顶部

HDFS 基本原理学习总结

公告