摘要: 在Hadoop中,有一些命名不好的模块,Secondary NameNode是其中之一。从它的名字上看,它给人的感觉就像是NameNode的备份。但它实际上却不是。HDFS集群有两类节点以管理者和工作者的工作模式运行,namenode就是其中的管理者。它管理着文件系统的命名空间,维护着文件系统树及整 阅读全文
posted @ 2018-01-25 22:44 李华东 阅读(328) 评论(0) 推荐(0) 编辑
摘要: HDFS即Hadoop Distributed File System分布式文件系统,它的设计目标是把超大数据集存储到分布在网络中的多台普通商用计算机上,并且能够提供高可靠性和高吞吐量的服务。分布式文件系统要比普通磁盘文件系统复杂,因为它要引入网络编程,分布式文件系统要容忍节点故障也是一个很大的挑战 阅读全文
posted @ 2018-01-24 19:47 李华东 阅读(236) 评论(0) 推荐(0) 编辑
摘要: 1、CAP原理和BASE思想 Consistency(一致性),数据一致更新,所有数据变动都是同步的。 Availability(可用性),好的响应性能。比如上锁的时间小就叫做高可用性。 Partition tolerance(分区容忍性),可靠性。即分布式系统在遇到某节点或网络分区故障的时候,仍然 阅读全文
posted @ 2018-01-23 19:40 李华东 阅读(170) 评论(0) 推荐(0) 编辑
摘要: 1.什么是大数据?大数据的特点? 大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 什么是大数据的特点?在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大 阅读全文
posted @ 2018-01-22 21:33 李华东 阅读(472) 评论(0) 推荐(0) 编辑