TakinTalks稳定性社区

  博客园 :: 首页 :: 博问 :: 闪存 :: 新随笔 :: 联系 :: 订阅 订阅 :: 管理 ::

2022年12月22日

摘要: # 一分钟精华速览 # 故障复盘指的是及时把过去发生的错误,最大程度转化为未来可以规避的办法,其核心是不断减少失败因子繁衍的温床,将它们牢牢地掌控在不至于引发危机的范围之中。 作为国民基础设施的哈啰出行,在保障超 5.3 亿注册用户体验和系统稳定性过程中,是如何通过系统的、有策略的总结复盘来避免故障 阅读全文
posted @ 2022-12-22 17:23 TakinTalks稳定性社区 阅读(173) 评论(0) 推荐(0) 编辑

2022年12月15日

摘要: 一分钟精华速览 在研发和稳定性保障过程中,人与设备、程序、组织的交互是一个复杂的过程,虽然人们极少会恶意犯错,但由于受特定情景下的实际条件影响,人为失误也时有发生,那么,如何尽可能减少这些失误的发生?如何保障研发质量和系统稳定? 「TakinTalks 论道系列」12 月刊第三期,即将发布,敬请期待 阅读全文
posted @ 2022-12-15 15:40 TakinTalks稳定性社区 阅读(131) 评论(0) 推荐(0) 编辑

2022年12月14日

摘要: # 一分钟精华速览 # 混沌工程是在分布式系统上进行实验,在整个系统中随机位置通过工具引发故障,从而提高系统健壮性以及人员的响应效率,建立对系统抵御生产环境中失控条件的能力以及信心的手段。虽然混沌工程已经发展了十余年,但对大部分公司和研发团队,它仍是一个比较陌生的领域。本文总结了去哪儿 2019 年 阅读全文
posted @ 2022-12-14 12:26 TakinTalks稳定性社区 阅读(139) 评论(0) 推荐(0) 编辑

摘要: 相比在分布式系统上进行随机的故障注入实验,基于混沌工程的大规模自动化故障演练,不仅能将“作战演习”常态化,还能通过提高覆盖面而获得更高的产出价值,帮助更全面地完善故障应急预案和处理体系。 阅读全文
posted @ 2022-12-14 12:24 TakinTalks稳定性社区 阅读(56) 评论(1) 推荐(0) 编辑

2022年10月14日

摘要: 美图崇尚的故障文化是 “拥抱故障,卓越运维”,倡导的基准是 No-Blame, 即「不指责,重改进」。今年 9 月 TakinTalks 社区曾经分享过美图的三段式故障治理方法(美图 SRE:一次线上大事故,我悟出了故障治理的 3 步 9 招),这次重点讲讲故障治理中的最后一个重要环节 —— 故障后 阅读全文
posted @ 2022-10-14 16:02 TakinTalks稳定性社区 阅读(380) 评论(0) 推荐(0) 编辑

2022年5月18日

摘要: 《英雄联盟》S11 全球总决赛·决赛中国战队夺冠,赛事直播盛况空前,观赛人数破亿。B 站作为英雄联盟 2021 全球总决赛直播独家版权方不仅在整个比赛过程中保证了直播整体总体运行的平稳,还抗住了超预期的流量。 如此大型的直播活动,B 站究竟是如何保障系统稳定的呢? 以下内容整理自 TakinTalk 阅读全文
posted @ 2022-05-18 16:15 TakinTalks稳定性社区 阅读(171) 评论(0) 推荐(0) 编辑

2022年4月28日

摘要: 4月27日,中国信通院主办的首届“全球信息系统稳定性峰会”在北京隆重召开,数列科技作为《信息系统稳定性保障能力建设指南》的主要参编单位受邀出席,并发表了主题演讲。与中国工程院院士廖湘科、网信办副局长张望、中国通信标准化协会副理事长代晓慧、信通院副院长魏亮、信通院云大所所长何宝宏等领导,中国铁路123 阅读全文
posted @ 2022-04-28 18:27 TakinTalks稳定性社区 阅读(45) 评论(0) 推荐(0) 编辑

2022年4月2日

摘要: 中国信息通信研究院分布式系统稳定性实验室正式发布了《信息系统稳定性保障能力建设指南》(下称《指南》)。数列科技应邀作为主要编写单位,深度参与了《指南》的编写制定;同时,数列提供稳定性保障服务的国家电网、浙江大学等,也被征集收录至系统稳定性最佳实践案例中。 随着各领域数字化转型的推进,用户的高频访问成 阅读全文
posted @ 2022-04-02 18:18 TakinTalks稳定性社区 阅读(35) 评论(0) 推荐(0) 编辑

2022年3月23日

摘要: 应用接探针除了安全问题,最担心的就是占用系统性能影响业务正常运转,今天分享一个实际案例告诉大家如何来降低探针的性能损耗。 下表为某用户的2条核心链路在200并发压测下的性能数据对比,可以看见在接入探针后性能损耗居高不下。 3步快速排查 1.对比链路差异 首先想到的排查方案是通过skywalking监 阅读全文
posted @ 2022-03-23 16:44 TakinTalks稳定性社区 阅读(372) 评论(0) 推荐(1) 编辑

2022年3月18日

摘要: ​ 我们在github上收到社区用户的问题反馈: ​ 用户原先应用已经接入skywalking,需要再接入数列的LinkAgent时启动会抛java.lang.UnsupportedOperationException,导致应用启动失败。 ​ 也就是说在不修改代码的情况下如果需要启动应用,skywa 阅读全文
posted @ 2022-03-18 17:33 TakinTalks稳定性社区 阅读(69) 评论(0) 推荐(0) 编辑