摘要: 数据集结元数据:数据需要的信息:数据传输计划和特殊的传输结果;数据传送区的文件用法,包括持续时间消耗的所有者信息维度表管理:规范化维度的定义和规范化事实的定义;关联job的规范,剥除域,查找属性;降低每一个引入描述属性维度规则的变化速度,每一个生产键所分配的当前代理键,也包括在内存中执行映射的查找表;前一天生产维度的复本,作为比较差异基础;换换和聚合:数据清洗规范;数据增加和映射转换;为数据挖掘所准备的数据转换;目标计划设计,源和目标数据流,和目标所有权;数据库管理系统的导入脚本;聚合定义;聚合用法统计,基础数据表使用统计,以及潜在的聚合;聚合更改日记;审计,工作日志和文档:数据沿袭和审计记录 阅读全文
posted @ 2012-10-23 20:38 honkcal 阅读(591) 评论(0) 推荐(0) 编辑
摘要: 装载数据仓库过程中,不管作业是实时执行还是批处理方式执行,其调度时间,执行顺序和执行环境都是关键点。本章描述创建一个ETL操作策略,来保证数据仓库的数据即时可用。ETL执行策略分为两种:1 调度 2 支持(为了确保etl过程运行完成,数据仓库必须能够被监控活动情况,并且必须有人专门支持)调度工具:任何企业数据仓库都必须拥有一个健壮的企业级ETL调度机制。主流的ETL供应商都提供其核心的ETL引擎提供打包的调度器ETL调度器必须的功能:1 令牌识别(ETL如何知道外部源的数据文件已经达到并开始其处理过程?ETL系统必须能够识别文件已经在文件系统中存在,并自动开始执行,这个过程叫做令牌识别)令牌是 阅读全文
posted @ 2012-10-23 14:09 honkcal 阅读(747) 评论(0) 推荐(0) 编辑