摘要:
HDFS 机架感知与副本放置策略 机架感知(RackAwareness) 通常,大型 Hadoop 集群会分布在很多机架上,在这种情况下, 希望不同节点之间的通信能够尽量发生在同一个机架之内,而不是跨机架。 为了提高容错能力,名称节点会尽可能把数据块的副本放到多个机架上。 综合考虑这两点的基础上 H 阅读全文
摘要:
HDFS Shell 操作 HDFS Shell 命令行格式 格式一:hadoop fs –命令名 参数 格式二:hdfs dfs –命令名 参数 HDFS 常用命令及参数 ls:查看 hdfs 中的目录信息 [root@node-01 ~]# hadoop fs -ls / put或copyFro 阅读全文
摘要:
HDFS 内部工作机制 HDFS集群分为两大角色:NameNode、DataNode (Secondary Namenode) NameNode 负责管理整个文件系统的元数据 DataNode 负责管理用户的文件块(Block) 文件会按照固定的大小(默认 128 M)切成若干文件块(Block)后 阅读全文
摘要:
Hadoop 简介 Hadoop 是什么 Hadoop 是一个提供分布式存储和计算的开源软件框架,它具有无共享、高可用(HA)、弹性可扩展的特点,非常适合处理海量数量。 Hadoop 是一个开源软件框架 Hadoop 适合处理大规模数据 Hadoop 被部署在一个可扩展的集群服务器上 Hadoop 阅读全文
摘要:
HDFS 简介 集群与分布式 集群 集群是由多个完成相同功能的服务器节点组成的集合 集群中每个服务器节点处理相同的任务或存储相同的数据 集群的关键特性是可扩展性和高可用性(支持负载均衡、错误恢复) 分布式 分布式是将一个系统拆分为多个不同的子系统,每个子系统运行在一个服务器节点上,最终共同完成系统的 阅读全文
摘要:
Sharding (分片模式) 副本集可以解决主节点发生故障导致数据丢失或不可用的问题,但遇到需要存储海量数据的情况时,副本集机制就束手无策了。副本集中的一台机器可能不足以存储数据,或者说集群不足以提供可接受的读写吞吐量。这就需要用到 MongoDB 的分片(Sharding)技术,这也是 Mong 阅读全文