代码改变世界

【数据立方】数据立方体的有效计算、物化materialization,索引OLAP数据

2012-12-13 00:31  Loull  阅读(1240)  评论(0编辑  收藏  举报

一、数据立方体的有效计算

多维数据分析的核心是有效计算多个维度合上的聚集。按SQL术语,这些聚集称为group-by。

对于n维的立方体,包括基本立方体总共有(2的n次幂)个方体。(假设每个维没有分层)

curse of dimensionality 如果数据立方体中所有的方体都预先计算,所需的存储空间可能爆炸。

二、物化materialization

部分物化

冰山立方体:是一个数据立方体,它只存放其聚集值(如计数)大于某个最小支持度阈值的立方体单元。

一旦选定的方体已经物化,重要的是在查询处理时利用它们。

三、索引OLAP数据

大部分数据仓库系统支持索引结构和物化视图(使用方体)。

位图索引,连接索引,位图连接索引