专注于中国的商业智能

导航

KDT#1 补充 点击流数据仓库的粒度选择

对于点击流数据仓库的事实表,通常有三种不同的粒度选择。

1.            事实表记录=每个会话的每个页面一条记录

这是一个非常细的级别,基本上满足所有的分析要求,但处理数据可能会花掉大部分的时间和金钱。一个好的建议就是用统计学里的抽样技术,选取1%的数据来进行处理和分析。

2.            事实表记录=每个会话一条记录

这个粒度在KDT1中已经描述。

3.            事实表记录=每天一条记录

这个粒度是一个很粗的粒度。优点很明显,就像聚集事实表一样,大大的减小了事实表的数据量。但是对分析的支持也小了很多,如对访问者、会话等就不能进行分析。

个人觉得,在建立点击流数据仓库时,该选哪个粒度,应该根据自己的实际情况来定。如果页面及访问量小的话可以考虑第一中粒度,大的话采用第二种粒度或第一种粒度加一个好的抽样算法。除非有特殊的情况,否则不建议采用第三种粒度。

posted on 2010-08-05 13:54  李梦蛟  阅读(312)  评论(0编辑  收藏  举报