离线ETL测试点
离线数据处理一般采用T+1模式,即每天陵城处理前一天的数据。对于离线数据的处理,一般采用Sqoop、Flume和Mapreduce等。
离线数据ETL过哦成主要集中在离线数据仓库。离线数据仓库的测试重点:
数据仓库层级 | 测试目标 | 测试范围 | 测试重点 |
数据接入层 | 数据完整性、数据正确性 | 字段、表 |
1、检查表的命名规范; 2、检查字段信息; 3、数据质量检查(如字段空值率、零值率、主键唯一性和字段值域) 4、检查数据完整性 |
数据明细层 | 数据完整性、数据正确性和数据清晰逻辑 | 字段、表 |
1、检查表的命名规范; 2、检查字段信息; 3、数据质量检查(如字段空值率、零值率、主键唯一性和字段值域) 4、检查数据完整性 5、数据清洗逻辑检查(数据填充) |
数据汇总层 | 业务逻辑性 | 表,重点是字段 |
1、表命名规范检查; 2、字段信息检查; 3、指标计算、内在逻辑对应关系检查 |
数据集市层 | 业务逻辑性 | 表,重点是字段 |
1、表命名规范检查; 2、字段信息检查; 3、指标计算、内在逻辑对应关系检查 |
针对离线数据处理的相关应用,在测试过程中,主要关注数据处理任务脚本、离线SQL统计脚本和数据处理储存结果。
大数据ETL测试工具:Informatica Data Validation 、 iCEDQ 、 Datagaps ETL Validator、Talend 、QuerySurge