ETL高级教程学习笔记
在导异构数据的过程中,最好加入一个派生列标识这行数据是从哪个数据系统里来的,这样在导的时候发生错误可以确定是哪个业务系统发生了问题.
ODS的定义似乎业内没有一个统一的标准,教程里理解的是一个业务系统数据库的快照.教程推荐业务系统的数据先导到这个ODS层数据库中,虽然是快照,不过也可以适当的加些转换或者标识,比如加派生列标识数据是从哪里来的,然后清洗和转换的工作在在ODS和数据仓库之间做.
通常不存储历史的记录信息
缓慢变化维度:有三种类型:
Fixed,不变化,如果变化了系统将报错
Changing,变化的,直接更新变化的值
Historical,属性变化时会保存已有记录,并加入一条新记录
缓慢变化维度在SSIS中有专门的这个组件
格式简单的,直接抽取
格式复杂的,编程实现
Maping表,在ods和 数据仓库起到中间匹配的作用,比如过滤ODS中的重复数据.
转换的时候允许中间建立多个临时的表.
对于复杂的逻辑可以使用存储过程.
数据的加载策略
时间戳
日志
全表对比
全表删除插入
维度表:通常用全表对比
事实表:通常用时间戳
推荐的书:
数据挖掘
包配置:
包配置文件的作用:
方便将包从开发环境部署到运行环境
提高设计包过程的灵活性
包配置文件有五种类型
XML文件,(操作系统中的)环境变量,注册表信息,父级包里的变量,SQLServer
包检查点:
设置检查点的作用:
避免重复加载大量数据
避免重复高负荷的计算
避免重复上载和下载文件
检查点的设置:CheckPointUsage
Never:永远都从包的起始点
Always:始终使用检查点文件
IfExists,如果有,则从中断点执行,否则重头执行
包的部署和管理:
手动部署:直接调用执行或注册到SQLServer中(引用注册,导入到msdb)
通过部署工具
---------------------------------------------------------------
aspnetx的BI笔记系列索引:
使用SQL Server Analysis Services数据挖掘的关联规则实现商品推荐功能
---------------------------------------------------------------