摘要:
hdfs的设计前提和目标: 1.认为硬件错误是常态而不是异常 2.流式数据访问,注重批处理和高吞吐量,而不是低延迟 3.大规模数据集 4.一次写入多次读取的文件访问模式 5.移动计算比移动数据更加划算 6.异构软硬件平台间的可移植性 namenode: 作用 1.存储文件和目录的元数据(元数据放在内 阅读全文
摘要:
YARN分布式资源管理系统 组成: ResourceManager:YARN的资源管理器,主节点,通过NodeManager管理集群中所有的资源 NodeManager:YARN的节点管理器,从节点,通过container管理资源,一个dataNode对应一个NodeManager Containe 阅读全文
摘要:
MapReduce的工作流程 1.客户端将每个block块切片(逻辑切分),每个切片都对应一个map任务,默认一个block块对应一个切片和一个map任务,split包含的信息:分片的元数据信息,包含起始位置,长度,和所在节点列表等 2.map按行读取切片数据,组成键值对,key为当前行在源文件中的 阅读全文
摘要:
hadoop存在的两个问题: 1.内存受限的问题 联邦解决内存受限问题。 建立多个NameNode,每个NameNode记录元数据的一部分,但是对于元数据整体来说本质上还是只有一份。 2.单点故障 HA(high available)高可用,解决hdfs的单点故障问题。 主备namenode,存储相 阅读全文