HDFS 写数据流程

原文：https://www.cnblogs.com/volcao/p/11446657.html

一、HDFS 写数据流程

写的过程：

CLIENT（客户端）：用来发起读写请求，并拆分文件成多个 Block；
NAMENODE：全局的协调和把控所有的请求，提供 Block 存放在 DataNode 上的地址；
DATANODE：负责数据的存储，可以有很多个；

客户端想 NameNode 发出请求（包含 Blocksize 和副本数）；
NameNode 经过计算，反馈给客户端相同副本数的 DataNode，切给出的 DataNode 有优先存储顺序要求；（数据与 DataNode 对应时，一般移动计算，不移动数据）
客户端得到信息后开始写数据，当第一个 DataNode 接受 Block 时，会将该数据传给第二个 DataNode ，第二个 DataNode 接受到数据时，也会将该数据传递给第三个 DataNode；在最后一个 DataNode 接受数据完毕时，则该 Block 全部传输完毕；
DataNode 在接受数据完毕后，每一个 DataNode 都会将完毕信息传递给 NameNode；
NameNode 将所有 DataNode 反馈的信息（所有数据以传输完毕），反馈给客户端；
客户端接受到 NamaNode 反馈的信息后（第一个 Block 传输完毕），开始发送请求传输第二个 Block；
传输完毕后，在关闭请求之前，NameNode 将该文件所有 Block 存放在 DataNode 上的 ID 保存在文件中；

二、HDFS 读数据的流程

客户端：提供文件名、副本数、Block 数量、Block 地址；
NameNode：提供 DataNode 地址及内部位置；

客户端提供提供文件名、副本数、Block 数量、Block 地址给 NameNode；
NameNode 收到请求后，根据请求给出副本及其 Block 所存放的 DataNode，以及Block 在 DataNode 中存放的位置；
客户端根据 NameNode 给的信息，给 DataNode 发出请求，由 DataNode 给出数据所在的具体块的信息；
客户端根据 DataNode 提供的信息，下载数据；

如果 DataNode 损坏、DataNode 上的数据丢失、数据块异常或者损坏等异常，HDFS会有相应的故障容错措施：

三、HDFS 的优缺点总结

优点：

数据冗余（文件以 Block 并且多副本的方式存储在集群的节点上）、硬件容错；
处理流式的数据访问；（一次写入，多次读取）
适合存储大文件；（通过扩展 DataNode 来实现存储大文件）
可构建在廉价的机器上；（降低成本）

缺点：

低延迟的数据访问；（一般数据较大，不容易实现在秒级别检索数据）
不适合小文件的存储；（无论文件大小，都有对应的元数据存放在 NameNode 上，如果小文件较多，则对应的元数据较多，对应的元数据所占用的内存信息较大，给NameNode 压力较大）

posted @ 2020-07-30 18:01 PanPan003 阅读(1002) 评论(1) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

【推荐】还在用 ECharts 开发大屏？试试这款永久免费的开源 BI 工具！
【推荐】编程新体验，更懂你的AI，立即体验豆包MarsCode编程助手
【推荐】凌霞软件回馈社区，博客园 & 1Panel & Halo 联合会员上线
【推荐】抖音旗下AI助手豆包，你的智能百科全书，全免费不限次数
【推荐】博客园社区专享云产品让利特惠，阿里云新客6.5折上折
【推荐】轻量又高性能的 SSH 工具 IShell：AI 加持，快人一步

编辑推荐：
· ［.NET］调用本地 Deepseek 模型
· 一个费力不讨好的项目，让我损失了近一半的绩效！
· .NET Core 托管堆内存泄露/CPU异常的常见思路
· PostgreSQL 和 SQL Server 在统计信息维护中的关键差异
· C++代码改造为UTF-8编码问题的总结

阅读排行：
· 一个费力不讨好的项目，让我损失了近一半的绩效！
· 清华大学推出第四讲使用 DeepSeek + DeepResearch 让科研像聊天一样简单！
· 实操Deepseek接入个人知识库
· CSnakes vs Python.NET：高效嵌入与灵活互通的跨语言方案对比
· Plotly.NET 一个为 .NET 打造的强大开源交互式图表库

历史上的今天：
2017-07-30 项目梳理3
2017-07-30 项目梳理2
2017-07-30 项目结构梳理——依赖注入

公告

昵称： PanPan003
园龄： 11年2个月
粉丝： 66
关注： 614

<

2025年2月

>

日

一

二

三

四

五

六

26

27

28

29

30

31

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

1

2

3

4

5

6

7

8

最新随笔

随笔分类 (1084)

随笔档案 (1384)

阅读排行榜

评论排行榜

推荐排行榜

最新评论

1. Re:正则匹配-URL-域名
好文
--彭世瑜
2. Re:docker for nginx run
等下
--.xoz
3. Re:Nuget CsvHelper 的使用
很好，正常运行，很赞
--myVector
4. Re:利用C#实现AOP常见的几种方法详解
牛的
--雨太阳
5. Re:使用 PerfCollect 跟踪 .NET 应用程序（官网介绍）
--kingreatwill
6. Re:HDFS 写数据流程
写流程时：第一个dataNode 怎么知道要写入的第二个dataNode是谁呢？
--komu
7. Re:.Net Core 本地化&全球化实践
json
--失踪人口
8. Re:docker build ——“.”
讲得好！
--执着的阿斗
9. Re:消息队列——kafka
大佬这篇文章能转载吗？我自己做个记录
--怒吼的萝卜
10. Re:asp.net core添加全局异常处理及log4net、Nlog应用(转发)
能动态配置吗啊
--十色鹿

支持DeepSeek的编程助手