专注于中国的商业智能

导航

2010年9月8日 #

超级维度表处理(亿行数据级别)

摘要: 最近在优化公司的数据仓库项目中ETL部分,发现有一处明显可以改进的地方,发出来和大家分享一下。在数据仓库中一个一个超级大维度表(1亿左右的记录),更新这个维度表的时候,采取的策略是最简单的1类渐变维度,即存在则更新,不存在则插入。原先的方式是在ETL过程中先查找这个大表本身,如果存在就打上update标记,不存在就打上insert标记,最后通过分支来分别插入和更新数据记录。每次执行这个job的时候... 阅读全文

posted @ 2010-09-08 16:04 李梦蛟 阅读(2352) 评论(5) 推荐(0) 编辑