大数据测试是什么、以及测试步骤

一、大数据测试基本概念
1、、什么是大数据?
大数据是一个大的数据集合,通过传统的计算技术无法进行处理。这些数据集的测试需要使用各种工具、技术和框架进行处理。大数据涉及数据创建、存储、检索、分析,而且它在数量、多样性、速度方法都很出色。

2、什么是BI?
BI(Business Intelligence)即商务智能,它是一套完整的解决方案,用来将企业中现有的数据(原始数据或商业数据或业务数据等)进行有效的整合,快速准确地提供报表并提出决策依据,帮助企业做出明智的业务经营决策。
原始数据记录了企业日常事务,例如与客户交互的信息、财务信息,员工相关记录等等。
这些数据可以用于汇报、分析、挖掘、数据质量、交互、预测分析等等

3、什么是数据仓库?
数据仓库是为查询和分析而不是事务处理而设计的数据库。
数据仓库是通过整合不同的异构数据源而构建起来的。
数据仓库的存在使得企业或组织能够将整合、分析数据工作与事务处理工作分离。
数据能够被转换、整合为更高质量的信息来满足企业级用户不同层次的需求。

4、什么是ETL?
ETL是Extract-Transform-Load的缩写(提取-转换-载入),是一个完整的从源系统提取数据,进行转换处理,载入至数据仓库的过程。

 

 

大数据处理的三个特性:1)大批量 2)实时性 3)可交互。另外,数据质量也同样是大数据测试的一个重要维度。

因此在进行应用程序测试之前,必须确保数据质量,并且考虑把数据质量作为数据库测试的一部分。涉及数据的各种特性的检验,例如一致性、准确性、重复性、连贯性、有效性及完整性等等。


大数据应用测试大体可以分为三步骤:

 

 

步骤一:数据阶段验证

大数据测试的第一步,也称作pre-hadoop阶段该过程包括如下验证:

1)来自各方面的数据资源应该被验证,来确保正确的数据被加载进系统。

2)将源数据与推送到Hadoop系统中的数据进行比较,以确保它们匹配。

3)验证正确的数据被提取并被加载到HDFS正确的位置。

该阶段可以使用工具Talend或Datameer,进行数据阶段验证。

步骤二:"MapReduce"验证

大数据测试的第二步是MapReduce的验证。在这个阶段,测试者在每个节点上进行业务逻辑验证,然后在运行多个节点后验证它们,确保如下操作的正确性:

1)Map与Reduce进程正常工作。

2)在数据上实施数据聚合或隔离规则。

3)生成键值对。

4)在执行Map和Reduce进程后验证数据。

步骤三:输出阶段验证

大数据测试的最后或第三阶段是输出验证过程。生成输出数据文件,同时把文件移到一个EDW(Enterprise Data Warehouse:企业数据仓库)中或着把文件移动到任何其他基于需求的系统中。在第三阶段的活动包括:

1)检查转换(Transformation)规则被正确应用。

2)检查数据完整性和成功的数据加载到目标系统中。

3)通过将目标数据与HDFS文件系统数据进行比较来检查没有数据损坏。

 

 







posted @ 2021-11-23 14:52  攻城狮-tester  阅读(761)  评论(0编辑  收藏  举报