03 2023 档案
摘要:由于独自管理游戏平台和游戏上线的工作。 游戏推广运营开始后,每天需要不停的开服,不同游戏、同一个游戏不同大区都需要开服,是不是想想头都大了。 开始游戏开服都是手工配置文件、拷贝代码,显然很容易出错,效率也很慢,额,应该还谈不上效率。 后来寻思集成到运维平台上,每次开服提交一个表单,点击开服按钮就可以
阅读全文
摘要:一、背景 目前告警是针对实时数值计算的结果,判定当前的值是否需要告警,存在以下问题: 不能知道什么时候该告警结束 当没有收到告警时,不能确定是因为收敛规则导致的暂时告警屏蔽,或者是 告警已经恢复引起。 二、解决思路 将告警的来源,从实时的时间序列值判断,变更为 异常事件的状态 针对异常事件进行告警的
阅读全文
摘要:有反馈K8S集群nodeport 端口经常不通,不断重试后可能恢复,现场可复现。nginx-ingress 服务也用的是nodeport模式,上机测试,确认问题存在。 故障现象: 1、在集群外telnet ingress 端口,偶然性出现超时。 2、集群ingress pod 不停在重启。(在10.
阅读全文
摘要:一、背景介绍 1.1 问题 随着移动互联网的蓬勃发展,业务逻辑愈发复杂,规模愈发庞大,更新迭代愈发频繁,用户对应用程序的Qps和SLA有了更高的要求:更高效、更灵活和更可靠。面对成千上万的后端服务,复杂的配置和环境,使软件交付的周期变的漫长,人为事故风险升高。 1.2 现状 1.3 解决方案 二、K
阅读全文
摘要:整体业务架构 整理业务架构,对于了解业务属性、可能存在的故障点有较深的作用 基于SpringCloud部分组件 搭建 负载均衡、熔断降级、自动 切换、监控告警 下图为整体的业务架构图 技术栈: API网关 - linkerd(service-mesh) 服务发现 – eureka 服务降级 - hy
阅读全文
摘要:一、架构设计 二、集群规划 IP 集群角色 描述 1 10.10.0.115 keepalived 虚拟IP 虚拟IP, 对10.10.0.15、10.10.0.29做keep alived 1 10.10.0.15 master、etcd、haproxy、keepalived真实ip 2 10.1
阅读全文
摘要:架构图: 目标: 1:回收机房外网资源2:分离内外网环境,提高线上环境安全性 适用场景(同时满足以下条件): 1:服务器需要主动访问外部网站2:非大流量,如访问音频视频等3:http/https4:非爬虫类业务等 接入方法: 1:更新白名单,并reload2:业务方测试通过,并上线 测试方法: cu
阅读全文