摘要:
Hadoop是一个分布式系统的基础框架,用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop的框架最核心的设计就是:HDFS和MapReduce。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System) 阅读全文
摘要:
ETL/Extraction-Transformation-Loading——用于完成DB到DW的数据转存,它将DB中的某一个时间点的状态,“抽取”出来,根据DW的存储模型要求,“转换”一下数据格式,然后再“加载”到DW的一个过程,这里需要强调的是,DB的模型是ER模型,遵从范式化设计原则,而DW的 阅读全文
摘要:
数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库是一个支持管理决策的数据集合。数据是面向主题的、集成的、不易丢失的并且是时变的。数据仓库是所有操作环境和外部数据源的快照集合。它并不需要非常精确,因为它必须在特定的时间基础上从操作环境中提取出来。维度:维度是用来反映业务 阅读全文
摘要:
大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。(大量无法用常规方法操作的数据集合)特点:归纳为5个V:海量的数据规模(volume)、快速的数据流转和动 阅读全文