李志涛

导航

followup监控需求

背景

当前followup监控不完善,查询服务与数据同步服务分离为独立项目,当前监控信息如下:
数据同步服务
  • 监控数据实时性,数据延时计算公式为当前系统时间戳减去订阅Canal的binlog数据时间戳的差值大于1分钟为判定为延时,然后发送报警给相关人。此监控存在问题是假设MySQL主从和Canal通路无问题,只是某个环节阻塞处理吞吐能力变差情况下可行,如果MySQL或Canal本身出现问题,是无法获知,更无法产生报警。
查询服务
  • 只有接口监控,探活可用
问题如下
  • es集群基础架构组不维护,维持现状不继续迭代,es集群处于无人管状态。例如mes集群
  • 业务只关注自身监控业务报警,es集群无关注,存在风险,es遇到性能或挂了却不知情

目标

  • 运维负责主机监控
  • 提供es系统监控,复用基础架构组的组件
  • 提供followup-es业务监控

收益

  • 能快速找到业务出现问题具体环节
  • 能获知数据同步是否存在延时发生
监控metrics
followup-es write QPS   每秒采集一次  由mon系统展示
报警metrics
根据业务规律设置 write QPS连续时间段内无数据,发送报警信息

posted on 2020-08-11 23:20  李志涛  阅读(128)  评论(0编辑  收藏  举报