大数据 分布式文件系统 HDFS概念
HDFS Hadoop Distributed File System
关键词
高度容错 高吞吐量 流式数据访问
前提与目标
前提 | 目标 |
---|---|
大规模分布式系统硬件错误是常态 | 错误检测和快速、自动恢复实现高容错 |
应用更关注数据批量处理,而非用户交互处理 | 提高批量读取吞吐量,而非降低随机读取延迟 |
应用具有很大的数据集,文件大小在G-T字节 | 通过横向扩展集群节点,提高整体数据传输带宽 |
假定应用满足“一次写入多次读取”的文件访问模型 | 数据一致性 |
移动计算比移动数据更划算 | 将计算移动到数据附近,降低拷贝数据产生的网络阻塞 |
异构软硬件平台 | 可移植性 |
缺点
- 不适合低延迟数据访问
- 不适合大量小文件存储
- 不支持并发写入
- 不支持文件随机修改
架构
- Namenode 中心服务器,负责管理文件系统命名空间,客户端访问,管理数据块到Datanode的映射。
- Datanode 一般一个机器上运行一个数据节点实例,负责处理客户端读写请求,接受Namenode调度进行数据块操作。
- Metadata 元数据,保存文件系统中所有目录和文件信息
- Block 数据块,最小存储单元,大小固定(默认128m),默认3个副本