【InfluxDB】因InfluxDB 时间线爆炸,导致InfluxDB异常重启问题排查与解决

昨天晚上8点左右,内部服务平台不能查询数据了,查看日志,初步定位是因InfluxDB 无法访问数据导致。

最后排查监控数据,可以看到 时间线达到 6 亿了!!!

1. 分析过程

 

 

 

 

 

 

 

 

 

 

 在2022-09-13 20:14  开始有一个大茅茨。每秒写入点数据请求,在20:14分;

                                 

 

 

 

 

 

2.  解决办法

大概看到问题了,然后完全无法使用了。和阿里云官方技术支持沟通后,采用升级操作先解决问题。 大概9:11pm 升级,到9:57pm  升级才完成,中间说系统还重启了一次;有惊无险; 旁边组说 升级配置从未成功过,感觉有点夸张;我们升级都没有失败过。

但是,升级费钱,主要还是优化时间线的问题。目前的计划执行是:

1,步骤1,升级
2,对数据库设置过期策略(和项目组协商保留时间)
3,对自定义函数数据和自定义结构数据使用单独的策略写入,并设置较短的保存策略
4,降低配置为原配置(9-27号之前完成)

5,优化业务存储方式,对于容易出现时间线问题的表进行重新设计

 其中,步骤2,设置过期策略,先设置成1年,观察下时间线的变化。

 

posted @ 2022-09-14 17:00  小侠女  阅读(999)  评论(1编辑  收藏  举报