摘要: 浅析查找ETL系统瓶颈What steps do you take to determine the bottleneck of a slow running ETL process?如果ETL进程运行较慢,需要分哪几步去找到ETL系统的瓶颈问题。答:ETL系统遇到性能问题,运行很慢是一件较常见的事情,这时要做的是逐步找到系统的瓶颈在哪里。首先要确定是由CPU、内存、I/O和网络等产生的瓶颈,还是由ETL处理过程产生的瓶颈。如果环境没有瓶颈,那么需要分析ETL的代码。这时,我们可以采用排除的方法,需要隔离不同的操作,并分别对它们进行测试。如果是采用纯手工编码方式的ETL处理,隔离不同的操作要麻 阅读全文
posted @ 2012-03-15 17:06 野三坡 阅读(269) 评论(0) 推荐(0) 编辑
摘要: 浅析一致性维度的交付步骤Explain the three basic delivery steps for conformed dimensions.简述对一致性维度的三种基本的交付步骤。答:数据整合的关键就是生成一致性维度,再通过一致性维度将来自不同数据源的事实数据合并到一起,供分析使用。通常来说,生成一致性维度有如下三个步骤:1.标准化(Standardizing)标准化的目的是使不同数据源的数据编码方式,数据格式等相同,为下一步数据匹配打下基础。2.匹配(Matching and Deduplication)数据匹配的工作有两种,一种是将不同数据源的标识同一事物的不同属性匹配到一起,是 阅读全文
posted @ 2012-03-15 11:58 野三坡 阅读(273) 评论(0) 推荐(0) 编辑
摘要: Why do dates require special treatment during the ETL process?为什么在ETL的过程中需要对日期进行特殊处理?答:在数据仓库的项目中,分析是主导需求,而基于日期和时间的分析更是占了很大的比重。而在操作型源系统中,日期通常都是SQL的DATETIME型的。如果在分析时,使用SQL对这种类型的字段临时处理会出现一些问题,如效率很差,不同的用户会采用不同的格式化方法导致报表不统一。所以,在数据仓库的建模时都会建立日期维度表和时间维度表,将用到的和日期相关的描述都冗余到该表中。但是,并不是所有的日期都被转化为日期维度表的外键。日期维度表中的记 阅读全文
posted @ 2012-03-15 11:54 野三坡 阅读(375) 评论(0) 推荐(0) 编辑
摘要: What are surrogate keys? Explain how the surrogate key pipeline works.什么是代理键?简述代理键替换管道如何工作。答:在维度表的迁移过程中,有一种处理方式是使用无意义的整型值分配给维度记录并作为维度记录的主键,这些作为主键的整型值称为代理键(Surrogate Key)。使用代理键有很多好处,如隔离数据仓库与操作环境,历史记录的保存,查询速度快等。同时,在事实表的迁移过程中,为了保证参照完整性也需要进行代理键的替换工作。为了代理键替换的效率高一些,我们通常在数据准备区中建立代理键查找表(Surrogate Mapping Ta 阅读全文
posted @ 2012-03-15 11:52 野三坡 阅读(178) 评论(0) 推荐(0) 编辑