大数据平台建设实践

一 大数据平台建设背景

  笔者所在公司,经过多年的信息化建设,关键的业务都已经实施了IT系统,例如MES, EAP, ERP等。 但是数据的使用还停留在初级阶段,几乎所有生产相关的KP报表都是手工创建。管理层认为,大量的历史数据存储需要付出成本,但是没有去挖掘数据背后的价值,对于公司来说,数据分析是个巨大的机会。经过初步分析,主要痛点如下:

  1. 数据处理不能自动化
  2. 数据没有可视化,没有标准KPI
  3. 数据量大,性能不佳
  4. 数据和业务系统没有融合
  5. 机器产生的错误报警,不能全面监控,并解释 
  6. 没有人分析挖掘数据

二 大数据平台选型

大数据平台要满足以下几点要求。

  1. 平台稳定 Stability
    • 考虑到以后会有实时数据监控,并且需要反馈到业务系统的应用,因此平台的稳定性很重要,期望平台可以24*7稳定运行,没有宕机时间。
  2. 支持HA
    • 同第一点,由于AI/BI业务应用希望平台可以24小时无宕机,所以需要平台支持高可用性,在系统打补丁或者其他维护期间,可以不用停系统,做到在线升级维护。
    • 平台提供冗余服务,如果个别服务器意外宕机,不影响整个平台的正常运行。
  3. 性能好 Performance
    • 由于数据量大,用户多,所以数据处理和查询的压力很大,希望平台的性能可以满足大量查询要求。
  4. 可以实现资源隔离 Resource
    • 由于平台有多任务运行,既有数据采集处理,又有
  5. 容易扩展 Scalability
    • 随着数据量或者使用量的增加,可以随时通过数据节点的增加,提升系统的性能
  6. 支持流处理和批量处理,最好是Kappa架构, 不是Lambda ( λ ),避免维护两套系统 - Kappa
  7. 支持数据流的全流程监控和可视化 Data flow monitoring
    • 由于数据从源头到目标表,中间需要经过多个Job的处理转换,需要一套工具可以监控到整个数据流的状态,一旦数据处理异常,可以即刻报警。
  8. 元数据目录管理 Data Catalog
    • 对于每张表,每个字段都有对应的技术描述和业务描述。
  9. BI和AI工具

三 用户用例选择

  由于大数据平台需要大量投资,公司首先考虑的是投资回报,所以第一批用户用例的选择很重要,既要容易实现,又要有好的ROI。经过业务部门内部讨论,确认需要实现下面几个用例。

  1. 数据相关性分析,用于快速查找出问题Lot的根因
  2. 测试数据的分析,通过数据分析,确保一次测试结果可靠,减少重复测试
  3. 报表自动化,目前很多报表都是手动的,通过大数据平台实现数据自动化
  4. FDC

四 大数据平台建设

posted @ 2023-03-09 14:19  ZH谢工  阅读(52)  评论(0编辑  收藏  举报