随笔分类 - 工作记录
发表于 2023-11-06 15:42阅读:54评论:0推荐:0
摘要:基于数据源来做分类 sls日志告警 配置以及查看方式 sls日志左侧点击铃铛进入告警中心配置 告警规则触发就是sls日志的查询语句,配置的规则时间内,查询语句查询的数量达到配置值,就会触发告警 现状 5XX告警 应用error日志告警 云产品监控告警 配置以及查看方式 阿里云直接搜索云监控 左边云产
阅读全文 »
发表于 2023-11-06 15:41阅读:103评论:0推荐:0
摘要:服务端应急处理流程 问题升级流程 问题升级步骤 SRE人员-各端组长-业务线负责人 现有降级手段 App业务入口降级 降级范围以及作用域 使用App降级策略,App在各个业务入口会直接降级,关闭对应的业务入口 使用场景 对应业务出现会持续扩大损失并且短期无法修复的报错,比如应用持续出现异常,并且异常
阅读全文 »
发表于 2023-11-06 15:41阅读:73评论:0推荐:0
摘要:SRE是什么 SRE(Site Reliability Engineering)即网站可靠性工程,以软件工程的方法论重新定义研发运维,驱动并赋能业务演进。 SRE的职责 SRE主要负责所有核心业务系统的可用性、性能、容量相关的事情,根据《Site Reliability Engineering 》一
阅读全文 »
发表于 2023-02-07 14:30阅读:825评论:1推荐:2
摘要:线上排查:内存异常使用导致full gc频繁 问题系统 日常巡检发现,应用线上出现频繁full gc 现象 应用线上出现频繁full gc 排查过程 分析dump 拉dump文件:小插曲:dump时如果指定:live,则在dump前jvm会先进行一次full gc,并且gc log里会打印dump
阅读全文 »
发表于 2022-03-17 11:39阅读:1647评论:0推荐:2
摘要:经验之谈:内存泄露的原因以及分析 内存泄露是Javaer听到最多的关于内存的事了,这篇文章就来谈谈这件事。 内存泄露与资源泄露 什么是泄露?泄露在计算机语境下,通常指的是某个资源无法被访问,也无法被释放。 内存泄露一般发生在某个对象的引用丢失,无法再访问到该引用,但是该引用却依旧引用着某个对象,导致
阅读全文 »
发表于 2020-10-14 16:47阅读:320评论:0推荐:0
摘要:问题的发现 早上上班,运维告警,说账户模块的服务全部CPU以及内存告警,当时正在地铁早高峰,所以他们留下了一台在dump,其他机器立马重启,重启后恢复,上班后立马开始排查。 一开始dump文件没出来,后续运维告知dump也失败了,其实按照结果来看,这个问题要是有dump的话, 当时一眼就能看出来问题
阅读全文 »
发表于 2020-10-14 16:43阅读:1180评论:0推荐:0
摘要:问题的发现 发现当然还是运维大哥因为发现告警,包括自己邮箱也一堆告警,然后运维大哥做了dump以及jstack后立马重启,重启后暂时解决。 问题的排查 有dump和jstack记录,当然是好分析的,先分析这两个,原因就比较明显了: dump记录拉到本地用java自带的工具查看,发现大量netty的M
阅读全文 »