随笔分类 - 稳定性保障
1
线上业务稳定性保障
摘要:昨天星球群里大家聊起了云服务性能测试相关的话题。有同学提出了这两个问题: 1、为什么压测集群和被测服务要保持在同一个网段? 2、为什么网络作为基础技术设施需要保持资源冗余? 看似是两个问题,其实本质上是同一个问题,即测试环境服务部署和网络带宽如何配置。 简单来说,无论是测试环境还是网络带宽,本身都可
阅读全文
摘要:无论是系统架构范畴,还是前几年性能测试和优化领域,大家都很喜欢讲三高(高并发高性能高可用),其中经常会出现这几个专业术语:缓存、限流、熔断、降级。 这些听起来很高大上的技术术语,到底是什么,在什么场景使用,它的作用又是什么,很多同学感觉云里雾里不太理解。 一个故事理解技术要点第三篇,这篇文章我们来聊
阅读全文
摘要:上个月语雀服务宕机6+小时,冲上了热搜。作为语雀的深度付费用户,且作为一个IT技术从业人员,对这件事还是很关注的。毕竟作为一个日更的技术博主,我的习惯都是在语雀写好草稿,然后复制到公众号等平台发布。 针对语雀服务宕机这件事,我当时还写了一篇文章《语雀服务宕机带来的稳定性思考》,分享了一些我对于稳定性
阅读全文
摘要:前天下午语雀服务宕机的事情,圈子里传的很火,影响范围挺大,很不幸,我就是那个被影响的渺小之一。 经常看我文章的同学应该都知道,我更新频次算是很高的。作为语雀的深度使用用户,日常我创作的内容,基本都是在语雀里写好,然后复制到公众号等平台进行发布。 本来昨天应该更新的内容,由于语雀服务宕机的事情,只能放
阅读全文
摘要:以前写过不少和稳定性相关的文章,其中介绍了不少稳定性保障的实践案例和方法,比如全链路压测和服务治理,这些案例和方法更多的是技术层面解决问题的方法和手段。 但为什么要做稳定性保障?如何理解稳定性保障?以前一直没太想明白。最近整理之前的技术笔记,翻了很多资料,对这个问题的理解开始清晰了。 这篇文章,我想
阅读全文
摘要:对技术同学来说,线上故障是一个绕不开的话题。 一方面,线上故障会极大的影响个人的绩效和心态;另一方面,处理线上故障也是很好的提升解决问题能力的机会。 因为线上故障的原因是多种多样的,会逼迫你去收集信息,从各种角度分析定位根因,然后想办法去优化解决。 处理线上故障的过程,是一个复杂的判断和筛选过程,而
阅读全文
摘要:以前写过两篇混沌工程相关的文章: 《学习笔记之初识混沌工程》 《大厂在混沌工程领域的实践》 前段时间帮一家To B企业为甲方的一个技术方案做在线支持和咨询答疑,主要是混沌工程相关的工程实践如何落地。在几天的沟通交流过程中,自己也收获了很多,对混沌工程有了很多新的认识。 这篇文章,来聊聊我对于混沌工程
阅读全文
摘要:上篇文章聊到了线上业务防资损的话题,业务防资损本身就是质量保障体系很重要的一环,甚至说第一要务。从另一种角度来说,业务防资损本身则要求线上业务可以为用户提供高可用的服务能力。 我们经常讲到线上服务的“三高”,即高并发、高性能、高可用,通常意义上指的是应用服务的高可用。而业务的高可用,则是从业务功能的
阅读全文
摘要:近几年大家对于生产服务的稳定性越来越重视,无论是在技术大会还是企业的技术规划中,混沌工程越来越多的被提及到。 上周末看了2个大厂落地混沌工程的视频案例,让我对混沌工程有了一些新的理解。 这篇文章,我总结了阿里和字节在落地混沌工程方面的一些技术实践,还有我的一些理解和思考。 为什么需要混沌工程? 其实
阅读全文
摘要:之前写过性能测试体系建设、质量保障机制构建的文章,最近重读有一些新的感触。 性能测试体系建设的内容偏向技术实践,质量保障机制构建的文章又类似方法论,中间存在一定Gap。 或者说在方法论和技术实践之间,我个人认为存在一个粘合的部分,能让其他人可循径前行落地的机制。 这篇文章如标题所述,我想基于容量保障
阅读全文
摘要:上一篇文章介绍了容量保障和容量测试的基本理念和特点,有同学私信我说希望介绍更详细的落地步骤。 这篇文章,结合我自己的实践经验和其他人的应用实践,为大家介绍下容量保障落地的几个步骤和注意细节。 一般来说,无论是什么技术项目,都可以拆成这几个步骤来落地: 明确目标和衡量结果的指标; 制定落地实施方案并进
阅读全文
摘要:前面几篇性能测试知识科普系列的文章,介绍了性能测试中的核心术语和指标、常用测试策略、压测工具选型、性能需求分析、测试能力分层、新手学习路径以及监控分析工具相关的内容。 这些知识可以说是性能测试最基本的能力,也是日常工作中需要经常用到的知识。 但在实际的工作中,我们面临的往往是复杂的业务场景和技术架构
阅读全文
摘要:昨天下午星球有同学问了一个问题:目前业内高可用部署主要采用方案? 看到这个问题,我的第一反应是问题太宽泛,不够明确。我反问了她一个问题:“你需要什么高可用?业务高可用?服务高可用?数据库高可用?还是其他?” 针对问题我也给出了我的理解和方案,大致内容如下: 高可用类型 简单理解 高可用方案 业务高可
阅读全文
摘要:昨天知识星球社群里有同学问了一个问题:线上问题如何复盘?从流程、分析和后续措施落地有哪些好的建议? 从质量保障的角度来说,针对线上问题进行复盘可以发现工作中的不足并持续改进,不断提高线上的交付质量。 从团队管理的角度来说,针对线上问题进行复盘也可以发现团队短板并针对性的补齐技术体系,提高团队效率。
阅读全文
摘要:前言 前面介绍了SRE的基础,包括SLI和SLO以及Error Budget(错误预算)。其中: SLI是衡量系统稳定性的指标; SLO是每个指标对应的衡量目标; SLO转化为错误预算(更直观便与量化); 转化后做稳定性提升保障工作,就是想办法不要把错误预算消耗完,或不能把错误预算快速大量消耗掉。
阅读全文
摘要:前言 这篇文章是《SRE实战手册》学习笔记的第二篇,理解SRE之后,就要找到切入点来落地。 理解SRE中的指标和目标 SRE强调稳定性,一般是看整体的系统情况,也就是常说的"3个9"、"4个9"这样可量化的数字。 这个“确定成功请求条件,设定达成占比目标”的过程,在SRE中就是设定稳定性衡量标准的S
阅读全文
摘要:前言 我自己一直是专注在性能测试和稳定性保障领域的,因此买了很多相关的技术课程学习。 极客时间上赵成老师的《SRE实战手册》是线上稳定性保障领域很好的一门技术课程。 这篇文章是我将学习过程总结的内容还有部分自己的思考做了提炼总结,供大家参考。 课程链接 SRE背景 背景:互联网行业不断发展; 目的:
阅读全文
摘要:每年一次的双十一大促临近,因此上周末公司组织了一次技术交流闭门会,邀请了电商、物流、文娱内容、生活服务等知名一线互联网公司的技术大牛,一起探讨了一些大促稳定性保障相关的技术话题。 我作为会议主持人,也和这些技术大牛交流了很多案例经验,从他们身上汲取了很多新的思路和技术实践。我将其中一些比较干货的技术
阅读全文
摘要:最近一直在忙618大促的全链路压测&稳定性保障相关工作,结果618还未开始,生产环境就出了几次生产故障,且大多都是和系统稳定性、性能相关的bad case。 生产全链路压测终于告一段落,抽出时间将个人收集的稳定性相关资料整理review了一遍,顺带从不同的维度,谈谈稳定性相关的“务虚”认知和思考。。
阅读全文
摘要:公司新成立了一个稳定性团队,20年的重要目标之一就是开展混沌工程。为了后续更好的开展工作,记录关于“混沌工程”相关的知识以及工程实践。 内容来源:《混沌工程:Netflix系统稳定性之道》摘录以及个人思考总结。。。。。。 概要 定义:主动发现系统中脆弱点的一整套方法论。 目的:如何让系统在不确定性中
阅读全文
1