数据库与数据仓库

一、数据库,数据仓库概述

1.1数据库概述

  关系数据库本质上是一个二元关系,简单说就是一个二维表格,这种数据库类型具有结构化程度高,独立性强,冗余度低等特点。

1.2操作型数据库与分析型数据库

  随着关系数据库理论的提出,诞生了一系列经典的RDBMS,如Oracle,MySQl,SQLServer等,这些RDBMS成功推向市场,然而随着数据库使用范围的不断扩大,他逐步划分为两大基本类型:

  操作型数据库

  主要用于业务支撑。一个公司往往会使用并维护若干个操作型数据库,这些数据库保存着公司           的日常操作数据,比如商品购买、酒店预订、学生成绩录入等;

  分析型数据库

  主要用于历史数据分析。这类数据库作为公司的单独数据存储,负责利用历史数据对公司各           主题域进行统计分析;

  为什么不将两种类型的数据库设计在一起?

  操作型任务和分型任务可能会抢资源而且两者之间已经有太多不同

1.3操作型数据库与分析型数据库的区别

  1)数据组成差别-数据时间范围查差别

  一般来讲,操作型数据库只会存放90天以内的数据,而分析型数据库存放的则是数年内的         数据。这点也是将操作型数据和分析型数据进行物理分离的主要原因。

  2)数据组成差别-数据细节层次差别

       操作型数据库存放的主要是细节数据,而分析型数据库中虽然既有细节数据,又有汇总数           据,但对于用户来说,重点关注的是汇总数据部分。

       操作型数据库中自然也有汇总需求,但汇总数据本身不存储而只存储其生成公式。这是因           为操作型数据是动态变化的,因此汇总数据会在每次查询时动态生成。

       而对于分析型数据库来说,因为汇总数据比较稳定不会发生改变,而且其计算量也比较大           (因为时间跨度大),因此它的汇总数据可考虑事先计算好,以避免重复计算。

  3)技术差别-数据更新差别

  操作型数据库允许用户进行增,删,改,查;分析型数据库用户则只能进行查询。

  4)技术差别 - 数据冗余差别

  数据的意义是什么?就是减少数据冗余,避免更新异常。而如3所述,分析型数据库中没有         更新操作。因此,减少数据冗余也就没那么重要了。

  5)功能差别-数据读者差别

  操作型数据库的使用者是业务环境内的各个角色,如用户,商家,进货商等;分析型数据           库则只被少量用户用来做综合性决策。

  6)功能差别-数据定位差别

  这里说的定位,主要是指以何种目的组织起来。操作型数据库是为了支撑具体业务的,因           此也被称为"面向应用型数据库";分析型数据库则是针对各特定业务主题域的分析任务创建         的,因此也被称为"面向主题型数据库"。

 

2.1数据仓库概述

数据仓库之父比尔·恩门,1991年提出数据仓库就是为了解决数据库不能解决的问题而提出的。什么问题是数据库无法解决的?首先了解什么是OLAP和OLTP。(重点)

2.2.OLTP和OLAP(重点)

  2.2.1OLTP  

  OLTP(OnLine Transaction Processing 联机事务处理) 。简单一些,就是数据库的增删查  改。举个例子,你到银行,去取一笔钱出来,或者转账,或者只是想查一下你还有多少存款,这些都是面向“事务”类型的操作。这样的操作有几个显著的特点:

首先要求速度很快, 基本上都是高可靠的在线操作(比如银行), 还有这些操作涉及的数据内容不会特别大(否则速度也就相应的降低), 最后,“事务”型的操作往往都要求是精准操作,比如你去银行取款,必须要求一个具体的数字,你是不可能对着柜台员工说我大概想取400到500快之间吧,那样人家会一脸懵逼。

  2.2.2OLAP

  这个东西又是上面发明关系型数据库的科德发明的。OLAP略有复杂,但这里我举一个简单的例子,大家就很容易理解了。

比如说,沃尔玛超市的数据库里有很多张表格,记录着各个商品的交易记录。超市里销售一种运动饮料,我们不妨称之为红牛。数据库中有一张表A,记录了红牛在一年的各个月份的销售额;还有一张表B,记录了红牛每个月在美国各个州的销售额:;甚至还有一张表C,记录了这家饮料公司在每个州对红牛饮料的宣传资金投入;甚至后来沃尔玛又从国家气象局拿到了美国各个州的一年365天每天的天气表D。好,最后问题来了,请根据以上数据分析红牛在宣传资金不超过三百万的情况下,什么季节,什么天气,美国哪个州最好卖?凭借我们的经验,可能会得出,夏季的晴天,在美国的佛罗里达,最好卖,而且宣传资金投入越高销售额应该也会高。可能这样的结论是正确的,但决策者想要看到的是确凿的数据结论,而不是“可能”这样的字眼。

科学是不相信直觉的,如果我们人工进行手动分析,会发现这个要考虑的维度实在太多了,根本无法下手,何况这才四五个维度,要是更多了怎么办?OLAP就是为了解决这样的问题诞生的,但糟糕的是,传统数据库是无法满足OLAP所需要的数据信息的。

 

2.3数据仓库的概念

  随着更多的使用OLAP来为决策者进行分析,探究深层次的关系和信息。很显然不同的数据库之间根本做不到数据共享,为解决企业的数据集成问题,1988年IBM两位研究员创造性的提出了一个术语:数据仓库(Data Warehouse)。

数据仓库的定义:

  数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理中的决策制定。

  对于数据仓库的概念我们可以从两个层次予以理解:

  首先,数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库; 其次,数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。

  我们可以不用管这个定义,简单的理解,其实就是我们为了进行OLAP,把分布在各个散落独立的数据库孤岛整合在了一个数据结构里面,称之为数据仓库。

  这个数据仓库在技术上是怎么建立的读者朋友们并不需要关心,但是我们要知道,原来各个数据孤岛中的数据,可能会在物理位置(比如沃尔玛在各个州可能都有自己的数据中心)、存储格式(比如月份是数值类型,但但天气可能是字符类型)、商业平台(不同数据库可能用的是Oracle数据库,有的是微软SQL Server数据库)、编写的语言(Java或者Scale等)等等各个方面完全不同,数据仓库要做的工作就是将他们按照所需要的格式提取出来,再进行必要的转换(统一数据格式)、清洗(去掉无效或者不需要的数据)等,最后装载进数据仓库(我们所说的ETL工具就是用来干这个的)。这样,拿我们上面红牛的例子来说,所有的信息就统一放在了数据仓库中了。

  自从数据仓库出现之后,信息产业就开始从以关系型数据库为基础的运营式系统慢慢向决策支持系统发展。这个决策支持系统,其实就是我们现在说的商务智能(Business Intelligence)即BI。

  可以这么说,数据仓库为OLAP解决了数据来源问题,数据仓库和OLAP互相促进发展,进一步驱动了商务智能的成熟,但真正将商务智能赋予“智能”的,正是我们现在热谈的下一代技术:数据挖掘。

 

2.4

面向主题

  面向主题特性是数据仓库和数据库的根本区别。

  操作型数据库是为了支撑各种业务而建立的而分析型数据库则是为了对从各种繁杂业务中抽象出来的分析主题(如用户、成本、商品等)进行分析而建立;所谓主题:是指用户使用数据仓库进行决策时所关心的重点方面,如:收入、客户、销售渠道等;所谓面向主题,是指数据仓库内的信息是按主题进行组织的,而不是像业务支撑系统那样是按照业务功能进行组织的。

  集成性

  集成性是指数据仓库会将不同源数据库中的数据汇总到一起;具体来说,是指数据仓库中的信息不是从各个业务系统中简单抽取出来的,而是经过一系列加工、整理和汇总的过程,因此数据仓库中的信息是关于整个企业的一致的全局信息。

  企业范围

  数据仓库内的数据是面向公司全局的。比如某个主题域为成本,则全公司和成本有关的信息都会被汇集进来;

  历史性

  较之操作型数据库,数据仓库的时间跨度通常比较长。前者通常保存几个月,后者可能几年甚至几十年;

  时变性 

  时变性是指数据仓库包含来自其时间范围不同时间段的数据快照。有了这些数据快照以后,用户便可将其汇总,生成各历史阶段的数据分析报告;数据仓库内的信息并不只是反映企业当前的状态,而是记录了从过去某一时点到当前各个阶段的信息。通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。

 

2.5数据仓库建设方法论

1)面向主题

从公司业务出发,是分析的宏观领域,比如供应商问题,商品主题,客户主题和仓库主题

2)为多维数据分析服务

数据报表;数据立方体,上卷、下钻、切片、旋转等分析功能。

3)反范式数据模型

以事物表和维度表组成的星型数据模型

数据仓库层的划分:

 

posted @   $WDNMD¥  阅读(123)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 【自荐】一款简洁、开源的在线白板工具 Drawnix
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
· 无需6万激活码!GitHub神秘组织3小时极速复刻Manus,手把手教你使用OpenManus搭建本
点击右上角即可分享
微信分享提示