「笔记」某移动SRE运维体系交流
痛点
- 传统竖井式IT架构(封闭、隔离、非标、难运维)
- X86 服务器硬件稳定性不足
- 开源软件可靠性不足,且不可控
- 出了故障,被动救火救不完
转型
由此催生了转型升级的需求:
- 运维智能(SRE)的转型
SRE运维模式
核心职责
保证:
- 业务连续性
- 应用连续性
- 平台连续性
职责分工
- 综合运维岗
- 7*24 在线或远程值班
- 业务监控
- 业务运维操作
- 故障处理
- 应急处理
- 运维专业组(由基础架构的:主机、存储、网络、中间件、数据库岗位演化而来)
- 系统架构梳理和优化
- 新建系统评审
- 故障演练
- 新技术引入
- 专业职责和经验赋能给综合运维岗,如提供数据库自动化脚本、数据库切换演练流程标准化等
- 运维开发
- 为综合运维岗开发运维工具、运维系统
- 收集分析运维专业组自动化、监控等需求
- DevOps、自动化运维、智能监控系统、容器平台等系统开发和持续迭代演进
综合运维岗 - 全栈运维入口
要点
- 全面运维
- 工具应用
- 统一入口
- 人才培育
👨💻 人员要求:
理工科背景;
应届生; 实习生
典型流程
事件跟踪和故障处理;
需要人工处理的交给专业组;
故障升级给"值班经理"
运维专业组
- 技术选型 - 标准化, 新技术选择,
- 行业生态
- 功能特性
- 发展规划
- 商业特性
- 架构管控 - 实现业务连续性, 高可用, 高可靠
- 场景提炼 - 升级、高可用切换、迁移、发布
- 疑难处理
三人行, 必有我师; 知识共享, 天下为公. 本文由东风微鸣技术博客 EWhisper.cn 编写.
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 全程不用写代码,我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· .NET10 - 预览版1新功能体验(一)