prometheus 问题排查 grafana页面信息查询不全
prometheus 问题排查 grafana页面信息查询不全
问题描述
登录客户生产环境,grafana监控redis集群的页面,应该有6个节点,但是现在每次刷新,只能出现2-3个节点的信息,有的时候甚至一个节点信息都没有。
问题排查
首先登陆prometheus的节点, curl http://xxxx/19100 ,curl访问exporter的端口,发现都不通。 登陆exporter的节点 发现端口都是存活的,通过页面访问mertics 发现也能抓到数据,说明exporter本身工作没问题。
然后在exporter上查看防火墙,发现防火墙是开着的,且没有对prometheus的server放开。索性关闭防火墙,返回grafana页面,发现还是老样子
问题升级,登录prometheus本身的检索页面,curl http://xxx:19090, 检索页面发现有个粉红色警告信息,检索条件 redis_up ,发现和grafana页面一样,偶尔只能刷新出几个redis节点,有的时候甚至一个都没有。所以判断是 prometheus和exporter之间出了问题
Warning: Error fetching server time: Detected 296.73200011253357 seconds time difference between your browser and the server. Prometheus relies on accurate time and time drift might cause unexpected query results.
这说明prometheus和exporter之间的时间间隔较大。登录prometheus和exporter,通过date发现时间间隔差了5分钟,而这些服务器本身无法访问外网,也没搭建ntpdate时间服务器
所以通过同步prometheus 和exporter之间的时间
sudo date -s "2024-11-28 10:00:00"
# 写入硬件
sudo hwclock -w
最后,重启prometheus,登录prometheus,检索 redis_up 发现能发现所有redis节点了
登录grafana验证,发现也能看到所有节点了