大文件分割并将字段定长输出

场景:接到需求,需要将一个五千万的表数据导出上传;

要求:文件大小小于2G,每个文件需增加行号,文件中的每个字段长度与接口规范保持一致;

操作:

第一步:将表中数据导出生成文件di_tmp.20200229,指定tab符为分割符;根据每行文件的总长度,每个文件大小小于2G,计算出每个文件的记录数为80万

第二步:分割文件,80万记录为一个文件,通过split命令对文件按行数进行分割

split -l 800000 di_tmp.20200229 new_di_tmp.20200229

分割后有多个文件,新文件的名称为:new_di_tmp.20200229aa,new_di_tmp.20200229ab,new_di_tmp.20200229ab...

第三步:对分割后的文件进行定长转换,通过awk命令对文件进行定长转换

cat new_di_tmp.20200229aa |awk -F"\t" '{printf ("%-8s%-1s%-15s%-15s%-17s%-4s\n",FNR,$1,$2,$3,$4,$5)}'

这里需要注意:awk命令后跟的分割符"\t",需要和数据库导出数据的分割符一致,这里都是用的tab符;通过FNR增加行号

操作结束。

posted @ 2020-03-10 15:24  lxpaopao  阅读(16)  评论(0编辑  收藏  举报