浅谈数据仓库(一)初识数据仓库
据了解,多数企业数据仓库都是维度模型,从今天开始,谈谈对于数据仓库的唯独建模理解;至于数据仓库模型,数据仓库理论先不赘述;
首先先要明确,你们的目前多数据存储是否是数据仓库,还是ODS,还是RDBMS,这对于以下的内容理解会更深;
一、数据获取与数据分析的区别(RDBMS/DW)
对于人一个公司或者组织来说数据都是笔重要的财富,数据中包含大量的信息,信息几乎总是用作为两个目的:
(1)操作型记录的保存
(2)分析型决策的制定
简单来说,操作型的保存数据,而DW/BI系统使用数据,操作型系统的用户确保组织能正常运转,操作型系统获取订单,签订新客户,监视操作型活动的状态,记录问题等,对操作型系统进行优化目的使其能够快地处理事务。操作型系统一般一次处理一条事务记录,他们按部就班,以可预测的方式完成同样的操作型任务,可预测地执行组织业务过程。鉴于这种执行特点操作系统不腻位数历史数据,秩序修改数据以反映最新的状态;(这里说的操作型系统指的是 RDBMS)
另一方面呢,DW/BI系统用户研究分析企业的运转,并对其性能进行评估,DW/BI系统统计订单的数量,并与过去周期的订单进行比较,找寻签订客户原因,了解客户的行为喜好等;这些数据/信息用于分析并判断操作过程是否处于正确的工作状态,在尽管业务要详细的数据来支持始终处于变化状态的问题,但DW/BI系统一般不会一次处理一个事务,对于DW/BI系统进行优化的目的是提高性能完成查询,而且查询通常需要收缩亿级别或者更多的事务,并将查询结果放入一个查询结果集中,为应对更复杂的问题。DW/BI系统的用户通常要保存历史环境,用于精确地评估组织在一定时间内的性能;
目前DW/BI系统与操作型系统有不同的需求,不同的客户,不同的结构,以及不同的应用场景的观点已经为大众所接受,但是遗憾的是,我们仍会发现认为DW/Bi系统是存储与不同硬件平台上的操作型记录的拷贝这样的错误观点。尽管在这样的环境中,处于性能的考虑,对操作型可分析型系统进行了隔离,但是并未仔细考虑这两类系统之间天然存在的其他差异。好多人感觉不到由这些虚假数据仓库提供的可用性和性能,这些茂名的顶替者对DW/BI系统进行了伤害,因为没有考虑到分析型与操作型系统用户在需求方面存在的巨大差异。
二、数据仓库和BI的目标
DW/BI系统要能方便的存取信息
他的内容必须是容易理解的,对于业务用户来说,数据需要有直观性,直观性不能仅针对与开发人员。数据结构与标识必须符合业务用户的思维过程词汇。业务用户能以各种形式分割和合并分析数据,访问数据的工具要简单医用,同时能够在较短时间内迅速查询结果给用户,简单来说需求就是:简单、快捷
DW/BI系统必须以一致的形式展现信息
DW/BI系统数据必须是可信的。精心组织不同来源的数据,实现数据的清洗,确保质量,只有在数据真这个合适用户的需要时才发布。一致性也以位置标识DW/Bi系统内容公共标识和定义,在不同的数据源8之间共用。如果两个关于性能度量的参数永不表示不同的事情,则他们应该具有不同的标记(异名异议性)
DW/BI系统必须能够适应变化
用户需求,业务环境,数据及技术都容易产生变化,设计DW/BI系统时要考虑到使其能够方便地处理无法避免的变化,以便在变化发生时仍能处理现有的数据和应用,当业务问题发生变化或新数据增加到数据仓库中时,已经存在的数据和用用不因该被改变或者破环,最后如果不必须修改dw/bi系统中描述的数据,要能以适当的方式来描述变化,并使这些变化对用户来说是透明的:如拉链表
DW/BI系统必须能够及时展现信息
由于DW/Bi系统主要用于才做型决策,原始数据需要在几个小时,几分钟或者几秒钟内被转换成可用的信息,当没有多少时间可用于数据清洗验证时,DW/Bi团队和业务用户需要对发布数据意味什么有现实的期望
DW/BI系统必须成为保护信息和财富安全的堡垒
保存在数据仓库中的信息是组织的信息化财富,至少数仓可能会包含各种信息如产品信息,用户信息,如果将这样的信息发给错误的人,将会给企业带来伤害。DW/BI必须能控制对于组织中机密信息的访问
DW/BI系统必须成为提高决策制定能力的权威和可信的基础
数据仓库需要正确的信息以支持决策制定,DW/BI系统最重要的输出是已于分析证据所产生的决策。这些决策体现了数据仓库的价值和影响。
DW/BI系统成功的标识是业务群体接受DW/BI系统
是否适用最佳组合产品或平台来构建体面的解决方案不是很重要,如果业务群体不能接受dw/bi环境并且积极使用它,就是个废品,对于操作型系统来说,用户无法对其加以选择,只能使用新系统;而对于DW/BI系统来说,与操作型系统不同的是他是可以选择的,只有当新系统真正成为用于构建可付诸实现的信息的’简单快捷‘的资源时,用户才会接受它。
尽管上述每一项的很重要,但是我认为最后两项最重要,遗憾的是,通常这两项其实最容易被忽视的,数据仓库和BI的成功是需要更多的专业设计师,技术人员,建模人员,数据库管理员。作为初涉DW/BI领域的我们,一方面育有较好的信息技术基础,另一方面,对于业务的不了解要两方面都要兼顾,为适应DW/BI的独特需求,修改那些经过检验的技能。显然,需要一整套的技能,这些技能包括数据库管理的技能,也包括商业分析师的技能,才能更好的适应DW/BI的商业盛宴、
总结
对于以上的赘述如很难理解终于要记住加粗部分,据了解目前很多中小型公司还没有数据仓库,他们所谓的数仓要么是简单的ODS,要么还是传统的RDBMS,根据我的经验来说,做到查询性能的高效根据目前已有的大数据技术容易实现,但是做到目标的最后两项很不容易,数据仓库和商业智能已经是大数据时代必不可少的,如果您是初学者,或者相对其有更深的了解,欢迎关注我,从今天开始我们共同学习,适应DW/BI的商业盛宴;