大数据 分布式文件系统 HDFS概念

HDFS Hadoop Distributed File System

关键词

高度容错 高吞吐量 流式数据访问

前提与目标

前提目标
大规模分布式系统硬件错误是常态错误检测和快速、自动恢复实现高容错
应用更关注数据批量处理,而非用户交互处理提高批量读取吞吐量,而非降低随机读取延迟
应用具有很大的数据集,文件大小在G-T字节通过横向扩展集群节点,提高整体数据传输带宽
假定应用满足“一次写入多次读取”的文件访问模型数据一致性
移动计算比移动数据更划算将计算移动到数据附近,降低拷贝数据产生的网络阻塞
异构软硬件平台可移植性

缺点

  • 不适合低延迟数据访问
  • 不适合大量小文件存储
  • 不支持并发写入
  • 不支持文件随机修改

架构

在这里插入图片描述

  • Namenode 中心服务器,负责管理文件系统命名空间,客户端访问,管理数据块到Datanode的映射。
  • Datanode 一般一个机器上运行一个数据节点实例,负责处理客户端读写请求,接受Namenode调度进行数据块操作。
  • Metadata 元数据,保存文件系统中所有目录和文件信息
  • Block 数据块,最小存储单元,大小固定(默认128m),默认3个副本

posted on   路过君  阅读(73)  评论(0编辑  收藏  举报

编辑推荐:
· AI与.NET技术实操系列(二):开始使用ML.NET
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
· 理解Rust引用及其生命周期标识(上)
· 浏览器原生「磁吸」效果!Anchor Positioning 锚点定位神器解析
阅读排行:
· DeepSeek 开源周回顾「GitHub 热点速览」
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布:重大改进与新特性概览!
· AI与.NET技术实操系列(二):开始使用ML.NET
· 单线程的Redis速度为什么快?

导航

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5
点击右上角即可分享
微信分享提示