应对海量图片(15T~)数据同步
灵蜂ETL工具产品 BeeDI 应对海量(15T~)图片数据同步解决方案:
一、完成数据同步需要2个过程:
1、历史数据同步——2、实时增量同步
二、环境、数据量级
主库环境:Oracle RAC+ASM,内存64G 从库单实例环境:内存192G
历史数据 19T 日增归档100G 主库包含 15T 图片数据 (单表约6000万条记录)
三、主要问题:
历史数据同步:初始采用Oracle导入导出方式(IMP/EXP),海量图片数据由于记录数庞大导致EXP 过程超时无法正常倒出数据
实时增量同步:采用日志解析方式 从日志文件中解析同步增量数据,但是同步延迟很大,难以满足实时同步要求。
四、灵蜂ETL工具产品 BeeDI 解决方案
1、历史数据同步
采用BeeDI时间戳 断点续传 功能,在同步BLOB表失败后通过断点分批同步数据最终通过20多日完成所有表历史数据同步。
2、实时增量同步
依次对主从服务器内存、网络、IO进行分析,最终确定性能瓶颈在于主库的归档读取性能低,RAC的2个实例归档位置指向不同的ASM磁盘组(+FRADG和+DATADG),而其中一个实例的归档与数据文件共用同一磁盘组(+DATADG),由于业务数据频繁写入,导致该磁盘组的归档读取性能很低。
将2个实例的归档位置合并到同一磁盘组(+FRADG),实现业务数据IO独立于归档IO。
归档位置合并后的日志读取性能大幅提升,原来导入1G数据需要7秒,而调整后不到3秒,BeeDI 可以满足同步100G新增日志/日
灵蜂ETL工具产品BeeDI 运行界面
posted on 2021-05-27 17:30 changchengchang 阅读(132) 评论(0) 编辑 收藏 举报