TakinTalks稳定性社区

  博客园 :: 首页 :: 博问 :: 闪存 :: 新随笔 :: 联系 :: 订阅 订阅 :: 管理 ::

2024年3月28日

摘要: 一分钟精华速览 酷家乐开发魔方语言的目的是解决其2B SaaS系统在复杂微服务架构下的故障定位难题,以提升系统稳定性并加速故障恢复。由于原监控工具操作复杂,需要人工逐项点击且依赖经验,导致处理效率低下。魔方语言通过自动化根因分析,显著提升了故障处理的覆盖率和准确率,从而减少了重复操作,降低了技术门槛 阅读全文
posted @ 2024-03-28 16:00 TakinTalks稳定性社区 阅读(142) 评论(0) 推荐(0) 编辑

2023年5月18日

摘要: 一分钟精华速览 越来越多企业正在通过故障注入和演练的方式提升系统可靠性,这其中金融行业的应用较为特殊。一方面其可靠性要求比非涉账类系统更高;另一方面金融行业有更加严格的监管要求,如客户、账目等信息都有严格约束。加之金融系统较其他行业系统更加庞大、繁杂,所以金融行业落地混沌工程和故障演练等工作需尤为谨 阅读全文
posted @ 2023-05-18 18:26 TakinTalks稳定性社区 阅读(124) 评论(0) 推荐(0) 编辑

2023年4月28日

摘要: 一分钟精华速览 全链路灰度发布是指在微服务体系架构中,应用的新、旧版本间平滑过渡的一种发布方式。由于微服务之间依赖关系错综复杂,一次发布可能会涉及多个服务升级,所以在发布前进行小规模的生产环境验证,让新版本的应用实例来承接、处理限定规模或范围的业务流量,能最大限度控制发布上线风险,保证业务连续性。 阅读全文
posted @ 2023-04-28 16:36 TakinTalks稳定性社区 阅读(139) 评论(0) 推荐(0) 编辑

2023年4月26日

摘要: 一分钟精华速览 在典型的分布式系统中,用户的一个请求到达组合的前端服务后,前端服务会分发请求到内部的各个服务,每次调用都涉及跨系统的一次请求和一次响应。在有大规模、高并发请求量的系统中,如何标识这些请求及存储这些调用信息,并形成调用链?如果系统的某两个服务间出了问题,又如何为业务方提供可视化的展现形 阅读全文
posted @ 2023-04-26 15:23 TakinTalks稳定性社区 阅读(78) 评论(0) 推荐(0) 编辑

2023年4月21日

摘要: 一分钟精华速览 首刊限版400本,没有电子版下载。 100本作为社区福利,免费领取,领完即止!不加印。 为什么会有这本刊物? TakinTalks社区是由业内专家共同发起的、专注业务稳定性提升的技术交流平台。面向技术管理者和一线从业者,定期探讨行业前沿的技术,分享最新的、可参考的、可落地的实战经验。 阅读全文
posted @ 2023-04-21 15:35 TakinTalks稳定性社区 阅读(75) 评论(0) 推荐(0) 编辑

2023年3月27日

摘要: 一分钟精华速览 当成千上万的服务器都处于低利用率时,就意味着巨额的浪费,良好的容量管理可以帮助消除某些“最后时刻”的临时应急式的盲目或者超量采购。除了成本合理控制方面,容量管理还要预估对客户可能产生影响的业务发展和风险变化。 B站在降本增效大背景下,从业务视角对整体容量做了可视化管理,本文详细描述了 阅读全文
posted @ 2023-03-27 14:51 TakinTalks稳定性社区 阅读(106) 评论(0) 推荐(0) 编辑

2023年3月24日

摘要: 一分钟精华速览 聊稳定性治理的文章很多,但面对系统的“各类疾病”,到底该从哪里着手才能立竿见影,怎么才能“药到病除”?相信在看这个问题时,大家会抱着“能不能学两招回去用”的心态阅读。 「TakinTalks论道系列」第3期,我们采访了4位资深从业人员,分别从CTO、稳定性负责人、SRE架构师、研发工 阅读全文
posted @ 2023-03-24 17:27 TakinTalks稳定性社区 阅读(101) 评论(0) 推荐(0) 编辑

2023年3月14日

摘要: 一分钟精华速览 可观测能力是指在复杂的软件系统中能及时、准确感知到服务状态,特别是异常或故障的发生,确定异常的影响范围、异常部位边界、判定异常点位、并由相关人员或软件做出准确决策的能力。 本文作者结合虎牙SRE实践及20余年架构、研发、运维经验,重点讲述如何设计和建设观测能力,做到分钟级感知故障、定 阅读全文
posted @ 2023-03-14 17:32 TakinTalks稳定性社区 阅读(124) 评论(0) 推荐(0) 编辑

摘要: 引言 保险业务的数字化转型正如火如荼地进行,产品线上化、投保线上化、承保线上化、核保线上化等业务转型,导致系统的应用范围不断扩大,用户的高频访问也正在成为常态。同时,系统复杂性也呈指数上升,这些因素都增加了系统的稳定性风险。 中国人寿将无侵入在线压测作为防御稳定性风险的重要手段,作为保险行业首家落地 阅读全文
posted @ 2023-03-14 13:51 TakinTalks稳定性社区 阅读(120) 评论(0) 推荐(0) 编辑

2023年2月2日

摘要: 一分钟精华速览 容量保障的目标是保证服务在大量用户访问时,依然可以正常为用户提供服务。比如,在“双11”购物节的超高访问量下,各电商系统依然能够稳定地运行,可以说容量保障是所有技术人都应当具备的技能。 知名技术博主老张结合其在电商行业多年的容量保障经验,系统梳理了一套容量保障方法,分享了如何根据业务 阅读全文
posted @ 2023-02-02 16:40 TakinTalks稳定性社区 阅读(143) 评论(0) 推荐(0) 编辑