复工指数项目流程
流程图如下:
说明:
1: OGG同步表清单
表名 |
注释 |
数据量 |
表大小/GB |
SH_LOSS_MID.LOSS_YC_MRCJDLDJSJ_CONSGZB |
日冻结电量 |
8900467833 |
561.39 |
SH_LOSS.C_METER_MP_RELA |
表计关系表 |
13778340 |
0.7 |
SH_LOSS.C_MP |
计量点 |
12016874 |
2.83 |
SH_LOSS.C_METER |
表计信息 |
13766620 |
2.05 |
SH_LOSS.LOSS_ARCH_REL_TG_TRAN |
台变关系表 |
139036 |
0.02 |
SH_LOSS.LOSS_ARCH_REL_YXMP_PDTRAN |
台户关系表 |
11050530 |
1.98 |
SH_LOSS.C_CONS |
用户表 |
12690949 |
1.68 |
2: OGG安装位置 /home/goldengate/
Ogg复制进程主要有repsa,repsb .
Rpesa 进程同步表为SH_LOSS.C_METER_MP_RELA
SH_LOSS.C_MP
SH_LOSS.C_METER
SH_LOSS.LOSS_ARCH_REL_TG_TRAN
SH_LOSS.LOSS_ARCH_REL_YXMP_PDTRAN
SH_LOSS.C_CONS
Repsb 进程同步表为LOSS_YC_MRCJDLDJSJ_CONSGZB
3:ETL进程
ETL进程主要是调用sp_c_read_gsy_flatten, sp_c_read_gsy_flatten_add两个存储过程,将源数据清洗进GSY目标大宽表中.
4:FDA数据清洗
FDA数据清洗主要是将GSY大宽表中的数据先导出成txt文件(为了使处理速度达到最优,最好每个文件大小为20M左右),再在星环大数据平台中使用discover工具,调用相关R程序脚本进行数据清洗.成功后在将数据导入到星环大数据云平台.