数据挖掘概念与技术9--多维数据模型
1.数据立方体的构建
数据立方体允许从多维对数据建模和观察。
维:透视图或实体,一个维对应维表。
事实:多维数据模型由事实表表示,表项称为事实一个事实表对应一个主题。例如数据仓库sales的事实包括:销售额,销售量,预算量等。一般事实由数值标志,从而更好的分析维之间的关系。注:事实是多维数据模型中的概念,维对应数据立方体中的概念,实际二者表示同意物体。
2.星形,雪花形,事实星座形模式:多维数据库模式。
星形:一个事实表,多个维表(每维一个)。
雪花形:一个事实表。为减少冗余(关系数据库中的规范化),维表中数据可能进一步分解到附加的表中。但由于查询需要大量的连接操作,所以雪花模型可能降低浏览的性能并且节省的空间相对于庞大的事实表可忽略,所以星形模型更加实用。
事实星座形:复杂的应用可能多个事实表共享某些维表。
注:此处解释数据仓库和数据集市的:数据仓库多用事实星座形,收集的是多个主题的信息,是企业级别的。数据集市多用星形或雪花形,只针对单个主题建模,是部门级别的。
3.使用数据挖掘查询语言(DMQL),进行数据立方体和维的定义。
4.度量的分类和计算
度量:这里的度量为名词,是一个数值函数。在上例中事实表sales中的dollars_sold和units_sold是度量。改词在前面数据汇总度量计算时有提到(均值,中位数,众数,最大最小值等)。
分类:根据所用的聚集函数的类型分类。
a.分布的。例如count,max,min.先计算局部,然后合并所有局部的结果值得到的整体结果如果等于直接对整体进行计算的结果值,则为分布。
b.代数的。代数一般只方程函数。即:度量有某些变量通过计算得到。例如均值=sum/n;
c.整体的。自聚集无法完成的,即只能通过对整体进行计算得到。例如:中位数,众数。
注:度量不仅仅可为数值型数据,也可以是空间的,多媒体,文本数据。
5.概念分层
前面以讨论,就是分层。
6.多维数据模型的OLAP操作
上卷,下钻,切片(对某一维进行选择),切块(对两个以上维进行选择),转轴等。
其他操作:钻过:执行涉及多个事实表的查询。
钻透:使用关系SQL机制,钻透数据立方体的底层,使用后端关系表。
OLAP提供分析建模机制,包括推到比率,方差;也支持预测,趋势分析,统计分析等。
7.查询多维数据库的星形网查询模型
多维数据库的查询可以基于星形网模型进行(上卷,下钻等造不同粒度下进行操作)。
模型的构建:由中心店发出多条射线组成。其中:射线指的是维的概念分层。线上的点叫做脚印,是概念分层的每一个抽象级。例如location(street,city,province).