多维分析之概念准备篇

让我们从现实的例子开始,比如现在要对某公司销售人员的年度销售量进行统计。原始数据如下:

 

 

97年

98年

张三

10万

13万

李四

20万

12万

 

假使我想进行一次奖励,对每年度销售最成功的销售人员进行鼓励,这就是一次统计活动。那我就会按如下步骤进行:

1. 寻找97年中所有销售人员及其对应的销售量的集合;

2. 找到其中最大的销售量并取出其对应销售人员的姓名

3. 同理对98年数据进行步骤1,2的运算

4. 得出每年度销售业绩最好的销售人员

 

 

97年

98年

业绩最好销售人员

李四

张三

 

直观上来说,数据项变少了,得到的是更为抽象的数据——各年度业绩最好的销售人员。各年度业绩最好的销售人员就是对从年,销售量这两个角度上对销售人员的一种统计。销售人员是一个分类,其中包含张三,李四两个人;销售量也是一种数据分类,其具有可度量的性质;年份也是一个分类,业绩最好就是根据数据运算得来的一种性质的数据分类。不难看出,这类统计有个特点,就是发掘出某种数据分类之间的数据联系。

 

让我们从几何上来看待这个演算过程,以销售量,销售人员,年为坐标轴建立坐标系,如下图所示:

 

image

     从图上可以看出,其实这些数据分类可以看成数学上维度的概念,找出销售业绩最好的销售人员也就是在维度运算中通过数据聚集来得出各维度之间的数据关联。

 

     由此定义,多维分析是对数据进行维度化分析后的度量聚集统计。维度化就是根据数据的特性进行分类。多维分析就是各分类之间的数据度量之间的关系,从而找出同类性质的统计项之间的数学上的联系。

 

引出如下基本概念:

 

  1. cube: 包含维度和度量维度的多维结构。
  2. dimension(维度):具有某类性质的数据集合。

    特殊维度:

    Time:时间维度,一般具有年,月,日,时,分,秒等属性。

    Measures:度量维度,即此维度上的数据都具有可度量的性质,即可用数字来表示。

  3. level:对维度中的数据从某种层次进行分类取代。比如时间,我只从年上去看,那1997年1月1日, 1997年1月2日都是1997年。时间维度由1997年,1998年等各分类组成。
  4. hierachy:在维度中的分类层次结构(一般是树形结构)。如时间维度中,可以这样定义一个hierachy,年ß月ß日。也就是所有月都属于某一年,所有日都属于某一月这样一种分类关系的表达。Measures维度所有的member都在同一层次。
  5. tuple:就是多维成员确定的空间集合。
  6. cells:cube中的原子元素,可以理解是维度空间中的一点。
  7. Slicer dimensions: 过滤使用,相当于在三维空间里用刀去切,缩小计算空间。
  8. member:维度上集合中的成员。

posted on 2011-11-23 08:54  jinspire  阅读(6937)  评论(6编辑  收藏  举报

导航