摘要:
1.ls命令(文件内容) 列出系统跟目录下的目录和文件 Hadoop fs -ls / 列出文件系统所有的目录和文件 Hadoop fs -ls -R / 2.cat命令(列出文档内容) Hadoop fs -cat <hadoop file> / 3.put命令:从本地获取文件 hadoop fs 阅读全文
摘要:
Primary-secondary协议 该协议是中心化副本控制协议中常常用到的,该协议将副本分为两类:其中仅有一个副本作为primary副本,其他副本都作为secondary副本。维护primary副本的节点作为中心节点,中心节点负责维护数据的更新、并发控制、协同副本的一致性。 (1)数据更新的基本 阅读全文
摘要:
数据分割(data splitting)是一种通过加密数据并将其存储在不同服务器文件的不同部分来保护敏感数据不被未经过认证的访问。当分割数据被访问时,检索到的部分被整合并解密。一个未经过认证的人需要知道存储了各个部分的服务器的地理位置,并能够访问到每个服务器,知道什么数据要整合,以及如何解密。 将问 阅读全文
摘要:
CAP和BASE用于分布式系统中 CAP: 一致性(Consistency): 数据一致更新,所有数据变动都是同步的。 可用性(Availability):好的响应性能。 分区容忍性(Partition tolerance):可靠性。 定理:任何分布式系统只可同时满足二点,没法三者兼顾。 一般情况: 阅读全文
摘要:
Hadoop是一个分布式系统的基础框架,用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop的框架最核心的设计就是:HDFS和MapReduce。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System) 阅读全文
摘要:
ETL/Extraction-Transformation-Loading——用于完成DB到DW的数据转存,它将DB中的某一个时间点的状态,“抽取”出来,根据DW的存储模型要求,“转换”一下数据格式,然后再“加载”到DW的一个过程,这里需要强调的是,DB的模型是ER模型,遵从范式化设计原则,而DW的 阅读全文
摘要:
数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库是一个支持管理决策的数据集合。数据是面向主题的、集成的、不易丢失的并且是时变的。数据仓库是所有操作环境和外部数据源的快照集合。它并不需要非常精确,因为它必须在特定的时间基础上从操作环境中提取出来。维度:维度是用来反映业务 阅读全文
摘要:
大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。(大量无法用常规方法操作的数据集合)特点:归纳为5个V:海量的数据规模(volume)、快速的数据流转和动 阅读全文