摘要: 基于数据源来做分类 sls日志告警 配置以及查看方式 sls日志左侧点击铃铛进入告警中心配置 告警规则触发就是sls日志的查询语句,配置的规则时间内,查询语句查询的数量达到配置值,就会触发告警 现状 5XX告警 应用error日志告警 云产品监控告警 配置以及查看方式 阿里云直接搜索云监控 左边云产 阅读全文
posted @ 2023-11-06 15:42 IntoTw 阅读(31) 评论(0) 推荐(0) 编辑
摘要: 服务端应急处理流程 问题升级流程 问题升级步骤 SRE人员-各端组长-业务线负责人 现有降级手段 App业务入口降级 降级范围以及作用域 使用App降级策略,App在各个业务入口会直接降级,关闭对应的业务入口 使用场景 对应业务出现会持续扩大损失并且短期无法修复的报错,比如应用持续出现异常,并且异常 阅读全文
posted @ 2023-11-06 15:41 IntoTw 阅读(45) 评论(0) 推荐(0) 编辑
摘要: SRE是什么 SRE(Site Reliability Engineering)即网站可靠性工程,以软件工程的方法论重新定义研发运维,驱动并赋能业务演进。 SRE的职责 SRE主要负责所有核心业务系统的可用性、性能、容量相关的事情,根据《Site Reliability Engineering 》一 阅读全文
posted @ 2023-11-06 15:41 IntoTw 阅读(22) 评论(0) 推荐(0) 编辑