DataNode工作原理(四)

DataNode的作用:提供真实文件数据的存储服务.以文件块进行存储。

文件块（block）：最基本的存储单位。对文件内容而言，一个文件的长度大小是size，那么从文件的0偏移开始，按照固定的大小，顺序对文件进行划分并编号，划分好的每一个块称一个block。HDFS默认的block大小是128M，以一个256MB文件，共有258/128=2个block.不同于普通文件系统的是，HDFS中，如果一个文件小于一个数据块的大小。并不占用整个数据块存储空间。

接下来对DataNode的存储方式进行验证。

1：切换到Data的dfs目录，然后切换到data/current/目录。。。一直往下找到 finalized目录。文件块就在该目录下。

2：执行 hadoop fs -rm -r hdfs://weekend110:9000/*命令清空上传的文件。发现 finalized目录下的信息为零。

3.新建一个会话,上传一个文件: hadoop fs -put apache-hive-0.14.0-bin.tar.gz /

4.再次查看 finalized目录，发现一个模块有 80288778B约等于76.5和上传的一样大

5.通过访问http://192.168.17.99:50070/explorer.html#/可以更直观的看出这是一个压缩文件76.57M占用一个Block。已经所做的权限组和权限及所有者。

6.再上传一个文件发现，第一个Block的Id为blk_1073741843。第二个Block的Id为blk_1073741844，具有连续性。有一个超过128M的文件压缩包，被分散成多个Block时，是不是也具有连续性。对于一个不完整的文件压缩包一般解压会失败。我们不能单独的cat出某个Block里面的内容，因此我得到他的所有的连续的Block合在一起会不会就能解压成功?

答案是肯定的。cat A >> B 最后等于上传文件的大小。因此hdfs中对文件的切割和合并和一般处理文件的流模式一样。

posted @ 2016-07-22 15:53 天羽星河落阅读(681) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

星辰日落

DataNode工作原理(四)

公告