KDT#1 补充 点击流数据仓库的粒度选择
对于点击流数据仓库的事实表,通常有三种不同的粒度选择。
1. 事实表记录=每个会话的每个页面一条记录
这是一个非常细的级别,基本上满足所有的分析要求,但处理数据可能会花掉大部分的时间和金钱。一个好的建议就是用统计学里的抽样技术,选取1%的数据来进行处理和分析。
2. 事实表记录=每个会话一条记录
这个粒度在KDT#1中已经描述。
3. 事实表记录=每天一条记录
这个粒度是一个很粗的粒度。优点很明显,就像聚集事实表一样,大大的减小了事实表的数据量。但是对分析的支持也小了很多,如对访问者、会话等就不能进行分析。
个人觉得,在建立点击流数据仓库时,该选哪个粒度,应该根据自己的实际情况来定。如果页面及访问量小的话可以考虑第一中粒度,大的话采用第二种粒度或第一种粒度加一个好的抽样算法。除非有特殊的情况,否则不建议采用第三种粒度。