随笔分类 - 运维问题
系统运维
摘要:前提条件 安装 ansible (推荐使用 pip3 install ansible) 获取 prometheus collection 说明 找到 prometheus-commulity 社区开源仓库,https://github.com/prometheus-community/ansible
阅读全文
摘要:背景 业务场景需要有客户端通过 tcp 连接线上环境 emqx 集群环境,集群规模有 5 台node节点承载emqx业务,每台节点在业务端口上都有 15w 左右的tcp连接保持。 近期发现与 emqx 相关的业务功能会出现间歇性的连接等待状态,索性运维同学在内网环境进行网络层的连接测试,确实复现了连
阅读全文
摘要:Google Cloud 自身只提供有少部分的 SaaS 托管服务,其他包括 ElasticSearch、MongoDB、Kafka 等服务都是基于合作伙伴公有云的方式,直接打通与全球各区域的 GCP 实例以提供云上服务。
本文介绍使用者希望数据通过类似于 VPC Peering 或者 Private Service Connect(PSC) 的方式进行数据传输到 Atlas MongoDB 中,保证数据的安全性,而且对于业务访问也可以做到无感知直接访问,在全球各相同区域能保证数据传输的效率。
阅读全文
摘要:使用容器环境的 Jenkins Console 界面显示中卫字符为乱码字符的问题原因,和处理办法。
阅读全文
摘要:Loki Promtail 使用 multiline 对 Java 堆栈异常日志进行多行处理的示例
阅读全文
摘要:ttyd 是一个运行在服务端,客户端通过web浏览器访问从而连接后台 tty (pts伪终端)接口的程序,把 shell 终端搬到 web 浏览器中。 WebSocket WebSocket 是 HTML5 开始提供的一种基于HTTP协议与服务器WebServer进行单会话、长连接、全双工的网络技术
阅读全文
摘要:故障前提 ElasticSearch 版本:5.2 集群节点数:5 索引主分片数:5 索引分片副本数:1 线上环境ES存储的数据量很大,当天由于存储故障,导致一时间 5个节点的 ES 集群,同时有两个节点离线,一个节点磁盘只读(机房小哥不会处理,无奈只有清空数据重新安装系统),一个节点重启后,ES集
阅读全文
摘要:老版本(RHEL6) tmpwatch 原理 在 RHEL6 上,/tmp 目录的清理工作通常是交给 tmpwatch 程序来完成的,tmpwatch 的工作机制是通过 /etc/cron.daily/tmpwatch 定时任务脚本,每天扫描一次 /tmp 目录下的文件,进行清理工作,清理掉长时间并
阅读全文
摘要:起因 线上环境是在内网,登陆线上环境需要使用 VPN + 堡垒机 登陆,但是我日常登陆线上环境都是 VPN + 堡垒机 + Socks5常驻代理,在shell端只需要保存会话,会话使用socks5代理即可无缝ssh到线上服务器。 今天来发现无法登陆服务器,但是ssh *** -f -N ****@*
阅读全文
摘要:环境 OS:CentOS 7.x DB:MongoDB 3.6.12 集群模式:mongod-shard1 *3 + mongod-shard2 *3 + mongod-conf-shard *3 + mongos *3 业务错误日志 caused by :: NetworkInterfaceExc
阅读全文
摘要:问题背景 业务准备在天翼云上搭建一套线上环境,VM 操作系统版本为 ,但是在 ambari Web 管理页面上部署hadoop节点主机的时候,遇到了 失败,无法继续部署的问题。 安装 Ambari 的程序包都是在老的集群环境直接拷贝过来,在老集群上( )并未出现此问题,OpenSSL version
阅读全文