摘要: 归档存储是一种将不断增长的存储容量与计算容量分离开来的解决方案。密度更高、存储成本更低、计算能力更低的节点正在成为可用的、可以在集群中用作冷存储。根据策略,可以将热数据移到冷数据。增加节点到冷存储中可以增加不依赖于集群计算容量的存储容量。 异构存储和归档存储提供的框架对HDFS体系结构进行了概括,使 阅读全文
posted @ 2021-02-01 20:43 数大招疯-公众号同名 阅读(1210) 评论(0) 推荐(0) 编辑
摘要: 概览 Diskbalancer 是一个命令行工具,可以在某个datanode的所有磁盘上均匀地分布数据。这个工具不同于负责整个集群数据平衡的 Balancer 。由于以下几个原因,数据可能在节点上的磁盘之间不均匀地传播。这可能是由于大量的写和删除操作或者磁盘替换造成的。这个工具对给定的datanod 阅读全文
posted @ 2021-02-01 20:42 数大招疯-公众号同名 阅读(1445) 评论(0) 推荐(0) 编辑
摘要: 概述 混合负载生成器(SLG)是用于在不同客户端负载情况下测试NameNode行为的工具。用户可以通过指定读取和写入的概率来生成读取,写入和列表请求的不同混合。用户通过调整工作线程数量和操作之间的延迟参数来控制负载强度。在负载生成器运行时,用户可以分析和监视NameNode的运行。当负载生成器退出时 阅读全文
posted @ 2021-02-01 20:40 数大招疯-公众号同名 阅读(389) 评论(0) 推荐(0) 编辑
摘要: 目的 副本策略开销很大 -- HDFS 中默认的3复制方案在存储空间和其他资源(例如,网络带宽)上有200% 的开销。然而,对于 i/o 活动相对较低的温和和冷数据集,在正常操作中很少访问额外的块副本,但仍然消耗与一个副本相同的资源量。 因此,一个自然的改进是使用擦除编码(EC)来代替副本,它提供了 阅读全文
posted @ 2021-02-01 20:39 数大招疯-公众号同名 阅读(1022) 评论(0) 推荐(0) 编辑
摘要: 概览 HDFS 中的集中式缓存管理 是一种明确的缓存机制,允许用户指定由 HDFS 缓存的路径。NameNode 将与磁盘上具有所需block的 datanode 通信,并指示它们将block缓存到off-heap缓存中。 HDFS 中的集中式缓存管理有许多显著的优点。 显式指定可以防止经常使用的数 阅读全文
posted @ 2021-02-01 20:38 数大招疯-公众号同名 阅读(347) 评论(0) 推荐(0) 编辑
摘要: 概览 HDFS 允许管理员对目录下的子目录和文件个数(Name Quotas),以及目录下数据存储大小(Space Quotas)进行配额限制。名称配额和空间配额是独立运作的,但这两种配额的管理和实施是密切并行的。 名称配额(Name Quotas) 名称配额是对目录树中的文件和目录名的数量的硬限制 阅读全文
posted @ 2021-02-01 20:37 数大招疯-公众号同名 阅读(1134) 评论(0) 推荐(0) 编辑
摘要: 概览 HDFS 快照是文件系统的只读时间点副本。可以在文件系统或整个文件系统的子树上拍摄快照。快照的一些常见用例是数据备份、防止用户错误和灾难恢复。 HDFS 快照的实现是有效的: 快照创建是即时的: 不包括 inode 查找的话,时间的成本为 o (1)。 只有在相对于快照进行修改时才使用额外的内 阅读全文
posted @ 2021-02-01 20:36 数大招疯-公众号同名 阅读(333) 评论(0) 推荐(0) 编辑
摘要: 引言 HDFS 是一个基于硬件的分散式档案系统分散式档案系统。它与现有的分布式文件系统有许多相似之处。然而,与其他分布式文件系统的区别是显著的。HDFS 具有很高的容错能力,可以部署在低成本的硬件上。HDFS 提供对应用程序数据的高吞吐量访问,适用于拥有大型数据集的应用程序。HDFS 放松了一些 P 阅读全文
posted @ 2021-02-01 20:35 数大招疯-公众号同名 阅读(228) 评论(0) 推荐(0) 编辑