Hadoop之HDFS介绍

NameNode（nn):
- 管理HDFS的名称空间；
- 配置副本策略；
- 管理数据块（Block）映射信息；
- 处理客户端读写请求；
DataNode：NameNode下达命令，DataNode执行实际操作；
- 存储实际的数据块；
- 执行数据块的读/写操作；
Client: 客户端
- 文件切分：文件上传到HDFS时，Client将文件切分成一个一个的Block，然后进行上传；
- 与NameNode交互，获取文件的位置信息；
- 与DataNode交互，读取或者写入数据；
- Client提供一些命令来管理HDFS，比如NameNode格式化；
- Client可以通过一些命令来访问HDFS，例如对HDFS进行增删改查操作；
Secondary NameNode：并非NameNode的热备。当NameNode挂掉后，它并不能马上替换NameNode并提供服务；
- 辅助NameNode，分担其工作量，比如定期合并Fsimage和Edits，并推送给NameNode；
- 在紧急情况下，可辅助恢复NameNode;

HDFS中的文件在物理上是分块存储（Block），块的大小可以通过配置参数（dfs.blocksize)来规定
- 默认大小在Hadoop2.x版本是128M,老版本是64M;
HDFS块的大小设置主要取决于磁盘传输速率。

bin/hadoop fs 基本命令
- bin/hadoop fs -getmerge /测试目录/* ./本地目录指定文件名.txt: 合并下载多个文件
- bin/hadoop fs -du -s -h /测试目录: 统计当前文件夹总的大小；
- bin/hadoop fs -du -h /测试目录: 统计当前文件夹各项的大小；
bin/hdfs dfs 基本命令： “dfs”是“fs”的实现类。

参考资料：

posted @ 2019-05-26 15:37 小a的软件思考阅读(377) 评论(0) 收藏举报

刷新页面返回顶部

思考与践行