【Flink系列十六】PrometheusPushGatewayReporter 限流压力过大解决

背景

Flink 的指标非常多,同时由于参数配置的不正确,导致指标上报频率过快,PushGateway集群压力过大。

相关文章

如果读者在找限流、拦截指标的做法,可参考我的其他文章,本篇略显敷衍的文章是记录如何使用 Nginx 对指标上报过程中进一步进行限流。
【Flink系列十二】使用OpenResty 在InfluxDB协议层拦截Flink指标
【Flink系列二】构建实时计算平台——特别篇,用InfluxDb收集Flink Metrics

解决方案

Nginx + limit_req

代码

location ^~ /metrics/job/flink {
    limit_req zone=one nodelay;
    limit_req_status 503;
    error_page 503 =200/process_503;
    ...
    ...
    }

location /process_503{
    return 200;
}

结论

指标上报的时候,超出频率,会返回503,导致NodeManager上打印StackTrace,对排查错误有不良影响,所以process_503直接返回200。避免Prometheus client 报错。

博主的QQ群:202588131

posted @   一杯半盏  阅读(419)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 【自荐】一款简洁、开源的在线白板工具 Drawnix
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
· Docker 太简单,K8s 太复杂?w7panel 让容器管理更轻松!
点击右上角即可分享
微信分享提示