摘要:
最近的一项工作内容是比对数据,在这里把主要的一些思考过程和思路整理一下。 工作的目标是比对源数据和目标数据,逐字段逐条记录比较,找出不同的字段以及缺少的记录。由于数据量比较庞大,大约有七百多万条,源数据和目标数据分别是以文本方式来存储,因为数据量大,所以源数据和目标数据都会被拆分成多个文件,比如源数据会拆分成4个文件,目标数据可能会拆分成7个文件,每个文件可能都会有几十兆的大小,当然源数据和目标数据都会有唯一化一条记录的编号,类似数据库中的主键,可以通过此编号来进行比对。 由于数量实在太大,之前公司内部使用的EXCEL比对工具无法完全读取所有记录,无法胜任此项工作,因此寻求另一种比较有... 阅读全文