运维问题 - 随笔分类 - Professor哥

Kafka 3.7.0 集群进行水平扩容（Kraft模式） - 扩容 broker、controller 节点

摘要：背景近期业务环境压力爬升，Kafka 作为后端业务的核心组件，存在业务压力警告状态，资源利用率一直很高，打算将原有 3 节点的kafka集群进行节点水平扩容，提升消息中间件的业务吞吐量。 Kafka 版本： 3.7.0 Kafka 节点角色：controller,broker Zk 节点：none 阅读全文

posted @ 2025-03-05 16:34 Professor哥阅读(664) 评论(0) 推荐(0)

ansible-galaxy 使用 prometheus-community/ansible 社区 Collection 安装 node-exporter

摘要：前提条件安装 ansible （推荐使用 pip3 install ansible）获取 prometheus collection 说明找到 prometheus-commulity 社区开源仓库，https://github.com/prometheus-community/ansible 阅读全文

posted @ 2024-12-10 01:19 Professor哥阅读(173) 评论(0) 推荐(0)

记一次线上高并发环境 TCP 握手丢包的故障处理

摘要：背景业务场景需要有客户端通过 tcp 连接线上环境 emqx 集群环境，集群规模有 5 台node节点承载emqx业务，每台节点在业务端口上都有 15w 左右的tcp连接保持。近期发现与 emqx 相关的业务功能会出现间歇性的连接等待状态，索性运维同学在内网环境进行网络层的连接测试，确实复现了连阅读全文

posted @ 2024-12-08 17:40 Professor哥阅读(356) 评论(0) 推荐(0)

Google Cloud (GCP) 使用基于 Atlas 的 MongoDB 托管服务，配置Google Cloud VPC Peering 方式进行数据访问

摘要：Google Cloud 自身只提供有少部分的 SaaS 托管服务，其他包括 ElasticSearch、MongoDB、Kafka 等服务都是基于合作伙伴公有云的方式，直接打通与全球各区域的 GCP 实例以提供云上服务。本文介绍使用者希望数据通过类似于 VPC Peering 或者 Private Service Connect(PSC) 的方式进行数据传输到 Atlas MongoDB 中，保证数据的安全性，而且对于业务访问也可以做到无感知直接访问，在全球各相同区域能保证数据传输的效率。阅读全文

posted @ 2023-09-01 10:46 Professor哥阅读(120) 评论(0) 推荐(0)

Jenkins Console 页中文显示乱码的问题

摘要：使用容器环境的 Jenkins Console 界面显示中卫字符为乱码字符的问题原因，和处理办法。阅读全文

posted @ 2023-08-13 18:41 Professor哥阅读(2547) 评论(0) 推荐(0)

Loki Promtail 使用 multiline 对Java 堆栈日志进行多行处理的示例

摘要：Loki Promtail 使用 multiline 对 Java 堆栈异常日志进行多行处理的示例阅读全文

posted @ 2022-12-28 00:11 Professor哥阅读(2661) 评论(0) 推荐(1)

更优于 Shellinabox 的 web shell 工具 -- ttyd

摘要：ttyd 是一个运行在服务端，客户端通过web浏览器访问从而连接后台 tty （pts伪终端）接口的程序，把 shell 终端搬到 web 浏览器中。 WebSocket WebSocket 是 HTML5 开始提供的一种基于HTTP协议与服务器WebServer进行单会话、长连接、全双工的网络技术阅读全文

posted @ 2021-03-17 14:21 Professor哥阅读(2593) 评论(0) 推荐(0)

记一次线上环境 ES 主分片为分配故障

摘要：故障前提 ElasticSearch 版本：5.2 集群节点数：5 索引主分片数：5 索引分片副本数：1 线上环境ES存储的数据量很大，当天由于存储故障，导致一时间 5个节点的 ES 集群，同时有两个节点离线，一个节点磁盘只读（机房小哥不会处理，无奈只有清空数据重新安装系统），一个节点重启后，ES集阅读全文

posted @ 2021-03-17 14:16 Professor哥阅读(753) 评论(0) 推荐(0)

CentOS 7 tmpwatch 2.11 版本变更，移除 cronjob 任务

摘要：老版本（RHEL6） tmpwatch 原理在 RHEL6 上，/tmp 目录的清理工作通常是交给 tmpwatch 程序来完成的，tmpwatch 的工作机制是通过 /etc/cron.daily/tmpwatch 定时任务脚本，每天扫描一次 /tmp 目录下的文件，进行清理工作，清理掉长时间并阅读全文

posted @ 2020-08-31 11:46 Professor哥阅读(386) 评论(0) 推荐(0)

SSH 提示密码过期，如何通过 ansible 批量更新线上服务器密码

摘要：起因线上环境是在内网，登陆线上环境需要使用 VPN + 堡垒机登陆，但是我日常登陆线上环境都是 VPN + 堡垒机 + Socks5常驻代理，在shell端只需要保存会话，会话使用socks5代理即可无缝ssh到线上服务器。今天来发现无法登陆服务器，但是ssh *** -f -N ****@* 阅读全文

posted @ 2020-08-14 18:19 Professor哥阅读(2365) 评论(1) 推荐(1)

MongoDB 集群 config server 查询超时导致 mongos 集群写入失败

摘要：环境 OS：CentOS 7.x DB：MongoDB 3.6.12 集群模式：mongod-shard1 *3 + mongod-shard2 *3 + mongod-conf-shard *3 + mongos *3 业务错误日志 caused by :: NetworkInterfaceExc 阅读全文

posted @ 2020-07-07 14:42 Professor哥阅读(1782) 评论(0) 推荐(0)

Ambari 2.4 在 CentOS 7.4 因 TLS_1.2 协商内部错误导致注册失败

摘要：问题背景业务准备在天翼云上搭建一套线上环境，VM 操作系统版本为，但是在 ambari Web 管理页面上部署hadoop节点主机的时候，遇到了失败，无法继续部署的问题。安装 Ambari 的程序包都是在老的集群环境直接拷贝过来，在老集群上（）并未出现此问题，OpenSSL version 阅读全文

posted @ 2020-05-08 18:37 Professor哥阅读(3638) 评论(1) 推荐(2)

Professor哥

无名的苏挨个

随笔分类 - 运维问题

公告