KDT#1 建立点击流数据仓库的一些指导
点击流数据指的是用户在WEB服务器提供的网页中点击事件形成的日志。用户的每一次点击都会生成日志。而对这些用户在网站上点击页面情况及停留时间情况的分析是电子商务等非常关心的内容。对这部分内容建立数据仓库,一般称为点击流数据仓库(Clickstream Data Warehouse)。
点击流数据量是巨大的,对于中等规模的商业网站来说,每天一会产生1亿左右的页面点击事件。所以在建立数据仓库时需要在保证分析粒度的情况下尽量减小数据量。
Kimball建议设计点击流数据仓库的事实表时粒度选择为:
一行事实表记录 = 一个访问会话。
如果平均下来一个会话有20个页面的话,事实表的记录数降低到每天5百万行,这和中等规模的零售数据仓库的数据量基本相当。
维度选择如下:
服务器日期维度。
服务器时间维度:从0点开始的时间。
访问日期维度。
访问时间维度。
访问者维度。
开始页面维度。
离开页面维度。
参考内容维度:如连接到这里的URL等内容。
会话维度:对当前会话的一些描述信息。
事实选择如下:
访问页面数。
总停留时间。
在这样的设计中,会话维度是非常重要的一个维度。需要一个复杂的后台ETL的支持。