随笔分类 - 稳定性测试
摘要:https://www.cnblogs.com/imyalost/p/16651708.html 昨天知识星球社群里有同学问了一个问题:线上问题如何复盘?从流程、分析和后续措施落地有哪些好的建议? 从质量保障的角度来说,针对线上问题进行复盘可以发现工作中的不足并持续改进,不断提高线上的交付质量。 从
阅读全文
摘要:转载:https://www.cnblogs.com/imyalost/p/15894494.html 前面介绍了SRE的基础,包括SLI和SLO以及Error Budget(错误预算)。其中: SLI是衡量系统稳定性的指标; SLO是每个指标对应的衡量目标; SLO转化为错误预算(更直观便与量化)
阅读全文
摘要:转载:https://www.cnblogs.com/imyalost/p/15891000.html 这篇文章是《SRE实战手册》学习笔记的第二篇,理解SRE之后,就要找到切入点来落地。 理解SRE中的指标和目标 SRE强调稳定性,一般是看整体的系统情况,也就是常说的"3个9"、"4个9"这样可量
阅读全文
摘要:转载:https://www.cnblogs.com/imyalost/p/15889223.html 前言 我自己一直是专注在性能测试和稳定性保障领域的,因此买了很多相关的技术课程学习。 极客时间上赵成老师的《SRE实战手册》是线上稳定性保障领域很好的一门技术课程。 这篇文章是我将学习过程总结的内
阅读全文
摘要:每年一次的双十一大促临近,因此上周末公司组织了一次技术交流闭门会,邀请了电商、物流、文娱内容、生活服务等知名一线互联网公司的技术大牛,一起探讨了一些大促稳定性保障相关的技术话题。 我作为会议主持人,也和这些技术大牛交流了很多案例经验,从他们身上汲取了很多新的思路和技术实践。我将其中一些比较干货的技术
阅读全文
摘要:转载:https://www.cnblogs.com/imyalost/p/12952930.html 最近一直在忙618大促的全链路压测&稳定性保障相关工作,结果618还未开始,生产环境就出了几次生产故障,且大多都是和系统稳定性、性能相关的bad case。 生产全链路压测终于告一段落,抽出时间将
阅读全文
摘要:写在前面 近日,在 QCon北京2017大会上,来自阿里巴巴中间件团队的技术专家周洋(花名中亭)发表了题为《阿里电商故障治理和故障演练实践》专题演讲。在会后官方组织的评选中,本次演讲的内容得到了一致好评,中亭获选为本次大会的明星讲师。此次演讲整体上分享了从 2011 年至今,阿里巴巴电商平台遇到的诸
阅读全文
摘要:原文链接:http://www.cnblogs.com/longronglang/p/9879570.html 概念 首先来说说性能测试:性能是软件的一种非功能特性,他关注的不是软件是否完成了特定的功能,而是软件在完成特定功能是展示出来的及时性。 及时性从不同的视角代表不同的指标: 用户:响应时间系
阅读全文
摘要:作者:肖飞,于2011年8月份加入京东,曾亲身参与到京东的应用性能监控、统一日志、流式计算、内存缓存、四层防攻击等一些基础技术平台的研发和搭建工作,经历了京东的技术系统从简单粗放向复杂精细化的演变过程。目前主要工作为多中心交易项目中的数据复制中间件JingoBUS的研发。平时也会开发一些公共的平台和
阅读全文
摘要:摘要:本文主要带大家了解服务稳定性的重要性和相关策略。策略大概分两部分,第一方面从架构层面介绍保障服务稳定性的常见策略(限流,降级,隔离,超时,重试和集群)。第二个方面是从流程方面(code review, 压测,灰度和监控)讲解怎么去保证稳定性。 https://www.infoq.cn/arti
阅读全文
摘要:https://blog.csdn.net/paolei/article/details/94390330 背景简介 对于大型应用后台系统来说,稳定性至关重要。目前越来越多的大型应用系统采用微服务架构,更加需要关注稳定性的技术能力建设。稳定性是服务系统基础能力的体现。 基础知识 在介绍稳定性技术策略
阅读全文
摘要:转自: https://blog.csdn.net/zuoanyinxiang/article/details/51680183 服务稳定性的实现方案: 依赖管理&服务分级&优雅降级&开关&应急预案 保障分布式系统的稳定性(一):流量控制 保障分布式系统的稳定性(二):心跳检测 容量与水位
阅读全文
摘要:直接说内容: 监控报警策略实战 冗余设计理念实战 限流原理与实现 降级的策略与实现 回滚策略规范与实践 重试技术策略理解 峰值应对: 面对峰值到来时候, 应该准备的工作。 分为了事前,事中, 事后 三个阶段来进行介绍。 其中比较重点的 全链路压测 步骤包含哪些东西。 线上问题实战:异常问题排查的实战
阅读全文
摘要:https://blog.csdn.net/qq_27384769/article/details/80195967 分布式实战(干货) spring cloud 实战(干货) mybatis 实战(干货) spring boot 实战(干货) React 入门实战(干货) 构建中小型互联网企业架构
阅读全文
摘要:美团外卖从2013年9月成交第一单以来,已走过了三个年头。期间,业务飞速发展,美团外卖由日均几单发展为日均500万单(9月11日已突破600万)的大型O2O互联网外卖服务平台。平台支持的品类也由最初外卖单品拓展为全品类。 随着订单量的增长、业务复杂度的提升,外卖订单系统也在不断演变进化,从早期一个订
阅读全文
摘要:“相信大部分人都用过美团外卖,尤其是在每天的两个吃饭的高峰期。美团外卖从创业到现在经历了数次的迭代,不断的适应需求,提供更好的体验。本文是美团外卖架构师曹振团在ArchSummit 2016 深圳站上的分享。老司机简介 曹振团,美团外卖技术专家/架构师,目前负责美团外卖业务系统的架构设计及优化工作。
阅读全文
摘要:https://blog.csdn.net/kobejayandy/article/details/15028503 昨天小邪讲的培训的内容,对集群大访问量的应用很有针对性的一些注意点。 1.隔离。 发生问题,能控制在一个小的范围。 物理隔离/虚拟(容器,实例,VM)隔离/流控 2.内存溢出。 代码
阅读全文
摘要:背景:在弱网、海量连接场景下,系统稳定性的保障。 参考: http://www.infoq.com/cn/articles/netty-million-level-push-service-design-points?utm_source=infoq&utm_campaign=user_page&u
阅读全文
摘要:https://blog.csdn.net/ligeforrent/article/details/82464540 稳定性保障思路1. 线上系统稳定性 容灾切换 流控方案2. 系统依赖 超时设置与监控报警 降级方案 熔断处理 强弱依赖梳理,保证核心流程3. 系统运维 蓝绿部署 回滚规范 自动化运维
阅读全文
摘要:本文链接:https://blog.csdn.net/arkzheng/article/details/52090254架构稳定性需要注意些什么?如果你有好的观点也可以抛出来,欢迎批评指导 1. 压测知道你的容量,设置报警线;读通过tcpcopy,写通过染色数据,如此引入线上数据回放测试 2. 如果
阅读全文