大数据分布式文件系统 HDFS概念

HDFS Hadoop Distributed File System

关键词

高度容错高吞吐量流式数据访问

前提与目标

前提	目标
大规模分布式系统硬件错误是常态	错误检测和快速、自动恢复实现高容错
应用更关注数据批量处理，而非用户交互处理	提高批量读取吞吐量，而非降低随机读取延迟
应用具有很大的数据集，文件大小在G-T字节	通过横向扩展集群节点，提高整体数据传输带宽
假定应用满足“一次写入多次读取”的文件访问模型	数据一致性
移动计算比移动数据更划算	将计算移动到数据附近，降低拷贝数据产生的网络阻塞
异构软硬件平台	可移植性

缺点

不适合低延迟数据访问
不适合大量小文件存储
不支持并发写入
不支持文件随机修改

架构

在这里插入图片描述

Namenode 中心服务器，负责管理文件系统命名空间，客户端访问，管理数据块到Datanode的映射。
Datanode 一般一个机器上运行一个数据节点实例，负责处理客户端读写请求，接受Namenode调度进行数据块操作。
Metadata 元数据，保存文件系统中所有目录和文件信息
Block 数据块，最小存储单元，大小固定(默认128m)，默认3个副本

posted on 2022-04-11 22:39 路过君阅读(55) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

【推荐】还在用 ECharts 开发大屏？试试这款永久免费的开源 BI 工具！
【推荐】国内首个AI IDE，深度理解中文开发场景，立即下载体验Trae
【推荐】编程新体验，更懂你的AI，立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包，你的智能百科全书，全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell：AI 加持，快人一步

相关博文：

· redis常用数据类型和应用场景

· k8s headless service DNS格式

· 【分布式存储】HDFS

· 1.5 HDFS分布式文件系统-hadoop-最全最完整的保姆级的java大数据学习资料

· 分布式系统框架

阅读排行：
· DeepSeek 开源周回顾「GitHub 热点速览」
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布：重大改进与新特性概览！
· AI与.NET技术实操系列（二）：开始使用ML.NET
· 单线程的Redis速度为什么快？

历史上的今天：
2020-04-11 spring 启动时自动运行
2020-04-11 spring cloud oauth2授权服务默认tokenService配置源码
2020-04-11 spring cloud 搭建oauth2授权服务使用redis存储令牌
2020-04-11 spring cloud oauth2授权服务 clientDetails配置源码
2020-04-11 spring 验证框架
2020-04-11 IDEA 插件整理
2020-04-11 spring security笔记默认登陆页面源码

导航

<

2025年3月

>

日

一

二

三

四

五

六

23

24

25

26

27

28

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5

公告

昵称：路过君
园龄： 14年3个月
粉丝： 3
关注： 8

随笔档案

文章分类

extjs(1)

阅读排行榜

评论排行榜

推荐排行榜

最新评论

1. Re:spring security oauth2 资源服务/客户端无法正确获取权限
真不错
--看着不像程序员
2. Re:Microsoft Windows远程桌面协议服务程序密钥泄露漏洞(CVE-2005-1794)
00
--jsjs1
3. Re:yml字符串值写法，单双引号区别，换行用法
单引号双引号的举例代码注释说反了吧？
--来玩儿8

AI FOR CODE 大赛