Hadoop小结们

数仓

  • 数据仓库是一个面向主题的、集成的、随着时间变化的、非易失的数据集合,用于支持管理者的决策过程。
  • 数据仓库中的力度是指数据的细节或汇总程度,细节程度越高,粒度几倍越低。
  • 数据仓库的数据来自各个业务应用系统。
  • 很多因素导致直接访问业务系统无法进行全局数据分析工作,这也是需要一个数据仓库的原因所在。
  • 操作型系统是一类专门用于管理面向事务的应用信息系统,而分析型系统是一种快速回答多维分析查询的实现方式,两者在很多方面存在差异。
  • 构成数据仓库系统的主要组成部分有数据源、ODS、中心数据仓库、分析查询引擎、ETL、元数据管理和自动化调度。
  • 主要的数据仓库架构有独立数据集市、从属数据集市、Inmon 企业信息工厂、Kimball多维数据仓库、混合型数据仓库。
  • ETL是建立数据仓库最重要的处理过程,也是最体现工作量的环节。
  • Kettle是常用的开源ETL工具。
  • 数据仓库的基本需求是安全性、可访问性、自动化,对数据的要求是准确性、时效性、历史可追溯性。

posted on 2019-07-15 17:54  菲菲菲非常可爱的小白兔  阅读(102)  评论(0编辑  收藏  举报