数据治理架构探索(二)

目前就职公司数据流转原先流程如上一篇提及:https://www.cnblogs.com/rango-lhl/p/12662473.html 

到后期每天同步数据有15G左右,由于生产的机子性能差,导致同步巨慢,影响了平台日常使用,因此做了优化。

ps:公司初期业务为主,数据量也较少,因此机器投入相对少,没有备用机器同时运作,oracle性能扩展又有难度,一直定时删数据才确保机器够空间存储,更不要说日常大量的IO请求。

说明:在实际工作情况中,由于企业发展阶段的不同,往往业务先行,技术栈方面更新不到位,特别是目前所在的企业是与传统金融机构合作的模式,不同于纯互联网公司,更多在确保数据安全,数据能正常传输前提下做搭建。

 

数据环境:

生产:oracle 11g

分析平台:星环 TDH V5.2 (6节点 1T内存)

 

数据流转:

 

 

 ps:分析平台由风控部门因分析需求推动建立,由于技术上人员维护的考虑,故采购现有方案提供商(星环/华为),

但也因此导致了后续拓展限制,各模块都是商业软件需单独采购,后续数据调度质量监控等需求由于费用问题,只能用尽方式实现。

 

优化点:

1、生产环境机器性能底下,在部分时间段有大量IO请求的阶段,会导致抽不动数,因此加入中间库,每小时同步生产的数据,该库仅保留两天数据,同步的同时删除数据,使用存储过程实现。

2、对内表全调整为ORC表存储,数据层由于没有会有数据插入等动作,建立ORC事务表,其他分析层表,使用ORC普通表。

3、引入可视化数据质量监控,由于涉及堡垒机环境,本地无法直接查看,使用了麻烦的方式:https://www.cnblogs.com/rango-lhl/p/13468887.html

4、定时任务优化,数据分析人员常用计算,常用指标做开发整合,建立定时任务非工作时间运行,减轻平台内存占用,使用crontab实现。

ps:商业化平台,各模块都单独卖,oozie/Azkaban无法自己安装,任务调度只能用crontab实现(这你敢信?实际情况就这么惨)。

 

posted @ 2020-08-21 17:58  Rango_lhl  阅读(205)  评论(0编辑  收藏  举报