随笔分类 -  故障处理

摘要:起因 今天中午12点多公司某台拥有双网卡(内网和外网)的debian11操作系统的机器内网IP地址发生了变化,经过询问都说没有人动过这台机器的IP地址。 这让我感到十分疑惑,没有人改动怎么IP地址怎么还会变化呢? 背景 这台Debian11的操作系统拥有两张网卡,一张外网网卡,一张内网网卡。由于公司 阅读全文
posted @ 2024-03-21 16:56 热气球! 阅读(827) 评论(0) 推荐(0) 编辑
摘要:早上接到同事反馈说Grafana某个监控图表点击后反应很慢,其他的图表都正常,只有这一张图表很慢。经过和大数据部门同事的沟通,发现应该是从大数据系统推送出来的数据有点问题,需要联合Grafana机器进行调试,询问我Grafana部署在哪台机器上。 由于公司不同区域都有一套Prometheus+Gra 阅读全文
posted @ 2024-03-13 09:39 热气球! 阅读(363) 评论(0) 推荐(0) 编辑
摘要:背景 中午吃完饭回来,刚要准备午休,同事告诉我说现在某个区域的服务出现了故障,Redis无法连接。 Redis我们是部署的哨兵模式,一主两从,哨兵分别部署在另外三台节点,也就是说我们的Redis哨兵一共用了6台机器。 登录服务器查看为什么Redis无法连接,发现Redis只是没有启动而已。怪了,谁会 阅读全文
posted @ 2024-02-26 16:33 热气球! 阅读(52) 评论(0) 推荐(0) 编辑
摘要:背景介绍 公司同事反馈测试环境某台机器ssh登录特别慢,我接到此需求后对该机器上的ssh问题进行处理并对测试环境所有机器进行依次验证ssh速度。 参考文档 SSH调试模式 SSH登录很慢正常情况 欢迎信息 解决思路 按照ssh调优的步骤检查UseDNS和GSSAPIAuthentication 如果 阅读全文
posted @ 2024-01-17 15:09 热气球! 阅读(259) 评论(0) 推荐(0) 编辑
摘要:背景介绍 在ubuntu20.04中使用apt安装软件时会出现报错dpkg/ error processing package install-info (--configure)/ installed install-info package post-installation script su 阅读全文
posted @ 2024-01-17 14:39 热气球! 阅读(196) 评论(0) 推荐(0) 编辑
摘要:背景介绍 近期研发同学反馈业务响应波动厉害,怀疑是Redis操作key比较慢的缘故。由于该环境是我一手安装部署的,我将进行问题排查。 Redis环境以及业务环境都已经使用Prometheus进行了监控。 环境说明 我们有两套一样的环境来服务不同的客户,另外一套环境中业务一直平稳运行,Redis并没有 阅读全文
posted @ 2023-12-26 15:39 热气球! 阅读(67) 评论(0) 推荐(0) 编辑
摘要:参考文档 Syslog - Fluent Bit: Official Manual Linux - rsyslogd:操作“action-3-builtin:omfwd”已挂起 - 堆栈溢出 (stackoverflow.com) 背景介绍 在研究FluentBit做日志数据采集端时看到官方实例sy 阅读全文
posted @ 2023-12-22 15:04 热气球! 阅读(382) 评论(0) 推荐(0) 编辑
摘要:参考文档 不释放内存,可能存在内存泄漏 ·期刊 #623 ·lsyncd/lsyncd (github.com) Lsyncd 导致内存泄漏。·期刊 #671 ·lsyncd/lsyncd (github.com) 背景介绍 在Lsyncd - 热气球! - 博客园 (cnblogs.com)这篇文 阅读全文
posted @ 2023-12-19 17:35 热气球! 阅读(80) 评论(0) 推荐(0) 编辑
摘要:参考文档 SSH 登陆 limits 配置不生效解决办法 - 自由早晚乱余生 - 博客园 (cnblogs.com) 环境信息 公司测试环境(涉及敏感信息补贴出具体IP) 现象描述 配置/etc/security/limits.conf后退出shell 并重新登录,执行ulimit -n但显示时仍然 阅读全文
posted @ 2023-12-18 15:12 热气球! 阅读(300) 评论(0) 推荐(0) 编辑
摘要:环境信息 说明:本文内容基于公司内部出现的问题,已经对机器环境信息做了脱敏处理。 hostname IPaddress role A 10.0.0.190 哨兵节点 B 10.0.0.191 哨兵节点 C 10.0.0.192 master节点 D 10.0.0.193 slave节点 E 10.0 阅读全文
posted @ 2023-11-29 10:40 热气球! 阅读(126) 评论(0) 推荐(0) 编辑
摘要:故障现象 Error response from daemon: driver failed programming external connectivity on endpoint jenkins (ffdc7c9cda72c575d6b045574d1432b256603a3d986a05da 阅读全文
posted @ 2023-11-29 10:22 热气球! 阅读(334) 评论(0) 推荐(0) 编辑
摘要:目录参考文档 🐰背景介绍 🐇系统环境 🐎升级步骤 🏎️升级验证 🌈补充说明 🏳️‍🌈 参考文档 🐰 jenkins 更换主数据目录-腾讯云开发者社区-腾讯云 (tencent.com) Jenkins之忘记管理员账户密码重置方法_restarting jenkins (via sys 阅读全文
posted @ 2023-11-28 16:32 热气球! 阅读(281) 评论(0) 推荐(0) 编辑
摘要:目录🥚 问题描述🍆 问题现象🏰 尝试解决🌲 后续步骤 🥚 问题描述 公司内有多套Prometheus+Grafana环境,只有核心业务环境中出现了failed to build query 'A': [sqlstore.max-retries-reached] retry 1: datab 阅读全文
posted @ 2023-11-07 14:49 热气球! 阅读(1538) 评论(2) 推荐(1) 编辑

点击右上角即可分享
微信分享提示