SRE-描述文档
SRE是什么
SRE(Site Reliability Engineering)即网站可靠性工程,以软件工程的方法论重新定义研发运维,驱动并赋能业务演进。
SRE的职责
SRE主要负责所有核心业务系统的可用性、性能、容量相关的事情,根据《Site Reliability Engineering 》一书提及的内容,笔者做简单汇总,SRE的工作主要包括但不限于如下:
-
基础设施容量规划
-
生产系统的监控
-
生产系统的负载均衡
-
发布与变更工程管理
-
on-call(轮值) 与 Firefighting(紧急故障救火)
-
与业务团队协作,共同完成疑难问题的处理
要做哪些事情
-
基础组件能力提升
-
性能优化
-
数据库稳定性治理
-
监控预警治理
-
故障诊断与恢复
-
变更流程规范
-
on-call轮值
-
稳定性日报
这些事情怎么做
基础组件能力提升
-
AHAS能力接入
-
整体上云
性能优化
-
数据库慢sql优化
-
慢接口优化
-
rediskey优化
数据库稳定性治理
- 主从库读写分离
监控预警治理
-
arms监控
-
error日志监控
-
云中间件监控
-
监控配置
故障诊断与恢复
-
全链路日志串联
-
rds的sql分析
-
Prometheus监控指标
-
redis缓存分析
-
故障复盘
变更流程规范
-
线上变更钉钉群通知
-
dms多级审批
-
变更评审以及发布评审
on-call轮值
-
高峰期项目稳定性全天9:00-21:00点轮班
-
SRE小组全天8:00-20:00轮班
稳定性日报
- 高峰期稳定性日报
异常怎么处理
-
拉通相关人员,及时同步信息
-
确认故障范围,减小故障规模
-
编写故障手册,规范处理步骤
-
参照异常处理手册
__EOF__

本文作者:IntoTw
本文链接:https://www.cnblogs.com/intotw/p/17812863.html
关于博主:评论和私信会在第一时间回复。或者直接私信我。
版权声明:本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!
声援博主:如果您觉得文章对您有帮助,可以点击文章右下角【推荐】一下。您的鼓励是博主的最大动力!
本文链接:https://www.cnblogs.com/intotw/p/17812863.html
关于博主:评论和私信会在第一时间回复。或者直接私信我。
版权声明:本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!
声援博主:如果您觉得文章对您有帮助,可以点击文章右下角【推荐】一下。您的鼓励是博主的最大动力!
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· DeepSeek 开源周回顾「GitHub 热点速览」
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布:重大改进与新特性概览!
· AI与.NET技术实操系列(二):开始使用ML.NET
· .NET10 - 预览版1新功能体验(一)