随笔分类 -  工作总结

小记:本地服务耗时和上游调用显示耗时相差过大问题排查及优化
摘要:问题 在最近一次压测时发现了一个现象:监控显示服务端p995耗时只有15ms左右,调用方的耗时却高达2000ms,二者相差巨大。 定位过程 查看cpu 查看了压测期间的cpu数据,发现cpu使用率只有20~30%,说明并不是cpu阻塞引起的调用方耗时高 查看jvm 查看了压测期间的jvm数据,发现压 阅读全文
posted @ 2021-01-26 22:23 孙振超 阅读(457) 评论(0) 推荐(0) 编辑
MessagePack简析
摘要:一、MessagePack是什么 先看官方的定义:MessagePack是一种高效的二进制序列化格式。它允许您像JSON一样在多个语言之间交换数据。但是,它更快并且更小。 从官方定义中,可以有如下的结论: MessagePack是一个二进制序列化格式,因而它序列化的结果可以在多个语言间进行数据的交换 阅读全文
posted @ 2018-02-14 21:31 孙振超 阅读(10230) 评论(3) 推荐(1) 编辑
容量规划
摘要:容量规划是个资源管理的命题,其目标是解答运行中的系统需要多少容量以及在什么时候需要这些容量的问题,更简单的说法就是回答我们需要在什么时候加多少机器的问题。 容量规划整体上是一个从上到下,再从下到上的一个过程,先是明确公司整体的目标,而后各个业务域和系统进行拆解,估算出系统的需求,而后再逐步汇总,统计 阅读全文
posted @ 2018-01-20 21:25 孙振超 阅读(2607) 评论(1) 推荐(2) 编辑
大促准备(十)备注
摘要:上面的步骤虽然是有先后顺序的,但是在真正执行时并不是单向的,而是会有跳跃或者反复的 检讨总结非常重要,确保不要犯重复的问题 信任但需要确认,一定要确认,一定要确认,一定要确认, 不放过任何一个预料之外的现象,要找到问题的根源并予以解决,而不能有侥幸心理 阅读全文
posted @ 2017-11-14 20:15 孙振超 阅读(269) 评论(0) 推荐(1) 编辑
大促准备(九)复盘
摘要:老话讲:失败是成功之母,然而如果下一次的尝试时还是用上次失败时的老方法大概率还是要失败。因而更确切的说法是检讨是成功之母,失败了但进行了检讨找到了问题的根源,然后进行修正,用修正后的方法再次进行尝试获得成功的可能性将会大大增加。 复盘的作用就是如此,一方面总结在大促准备过程中碰到的问题,避免下次再犯 阅读全文
posted @ 2017-11-14 20:14 孙振超 阅读(472) 评论(0) 推荐(0) 编辑
大促准备(八)大促当天执行
摘要:经过了前面的各种准备,大促终于到了,在大促当天要关注的事情也是相当多的,需要有条不紊的按部就班的执行。 1.值班安排 大促期间执行、验证、观察的事项还是比较多的,最好是有两个人进行主备,每一件事情最好能够double check,并且做好事项的分工。 2.应用服务器磁盘空间清理|重启 系统在运行过程 阅读全文
posted @ 2017-11-14 20:13 孙振超 阅读(537) 评论(0) 推荐(0) 编辑
大促准备(七)压测
摘要:压测分为全链路压测和单系统服务接口压测两种,对于全链路压测要准备的事情和要改造的东西是特别多的,是一个相对庞大的系统工程,大致业务架构如下,可以单独列出一个系列来讲,这里只讲单系统的服务接口压测。 压测可以选择的框架有多种,可以根据系统所采用的代码、熟悉程度等选择一个,更好的方式是在开源的压测框架之 阅读全文
posted @ 2017-11-14 20:12 孙振超 阅读(768) 评论(1) 推荐(0) 编辑
大促准备(六)预案配置和演练
摘要:一.为什么要有预案 事有轻重缓急,对于一个系统也是如此,在大促期间通常会将系统中一些不太重要的业务或操作给降级,比如详情日志打印、营销类的消息、业务控制等,将资源用于大促中不得不操作的业务上;或者在大促过程中进行链路的切换,比如启用近端、启用异步执行或者合并执行等。一个系统通常有多个这样的操作,如果 阅读全文
posted @ 2017-11-14 20:11 孙振超 阅读(674) 评论(0) 推荐(0) 编辑
大促准备(五)压测改造
摘要:压测是准备大促过程中至关重要的一个环节,在真正开始压测之前系统通常要做一定的改造,以使得压测请求的代码执行路径更符合实际情况,主要进行的改造和准备主要有如下内容 1、存储准备 对于压测服务中涉及到db(msyql、hbase、ob)的系统,在压测前需要联系DBA、PE先准备好所需的压测表。对于缓存( 阅读全文
posted @ 2017-11-14 20:10 孙振超 阅读(455) 评论(0) 推荐(0) 编辑
大促准备(四)限流配置
摘要:限流主要是针对非核心服务调用者进行的。 1、确定限流对象 原则上,大促核心链路上的服务都要配置限流,以免大促期间的流量超过预估值把服务器压垮。同时还要考虑出口限流,主要是对db的限流,配置一个读写总流,以避免把服务器压垮。 2、确定限流实现方式 限流实现方式主要有两种: 方法1的好处是简单,缺点是限 阅读全文
posted @ 2017-11-14 20:09 孙振超 阅读(528) 评论(0) 推荐(0) 编辑
大促准备(三)资源估算
摘要:这里的资源估算,主要是指系统使用的应用服务器数量的估算,对于存储及中间件的机器需求对应的pe及dba会进行估算,我们主要是进行验证。 应用服务器的估算简单的说就是:服务调用总量/单机容量。然而在真正操作时需要注意下面因素: 大多数系统是分zone部署的,因而需要把总的服务调用量按照服务分布转换为对应 阅读全文
posted @ 2017-11-14 20:07 孙振超 阅读(537) 评论(0) 推荐(0) 编辑
大促准备(二)调用量统计
摘要:一、接口调用统计 询问上游调用方或总pm在大促期间对我们系统对应服务的调用峰值及峰值发生时间、是否为强依赖。 编号 服务 峰值 峰值时间 所在zone 场景 调用方 是否强依赖 编号 服务 峰值 峰值时间 所在zone 场景 调用方 是否强依赖 编号 服务 峰值 峰值时间 所在zone 场景 调用方 阅读全文
posted @ 2017-11-14 20:06 孙振超 阅读(776) 评论(0) 推荐(0) 编辑
大促准备(-)态度意识
摘要:一、大促无小事 大促是服务端系统的头等大事,是自身技术水平、业务了解程度最好的检验场,也是扩大自身影响力最好的舞台。在大促准备过程中对于任何不符合预期的动态需要百分之百的重视,确保了解背后的原因,评估其影响,如果不能彻底消除,必须要有相应的预案和对策,并且这些预案和对策是经过验证可行的。 二、信任但 阅读全文
posted @ 2017-11-14 20:05 孙振超 阅读(293) 评论(0) 推荐(0) 编辑
面试总结
摘要:最近一直在进行面试,每一位面试者都需要花费30~40分钟的时间,对此进行了下简单的总结,概况起来有如下内容: 1.确定基本的要求,明确需要具备的素质和能力2.从应聘者自己的工作出发,了解其考虑问题的思路,有没有全面详细的考虑,在工作过程中主要解决的难题是什么?解决的思路是什么?对自己工作中用到的那些 阅读全文
posted @ 2017-07-28 23:05 孙振超 阅读(405) 评论(0) 推荐(0) 编辑
一次young gc耗时过长优化过程
摘要:1 问题源起 上游系统通过公司rpc框架调用我们系统接口超时(默认超时时间为100ms)数量从50次/分突然上涨到2000次/分,在发生变化时间段里我们的系统也没有做过代码变更,但上游系统的调用确发生了变化。由于处于主要链路上,sre同学找过来询问原因,所以开始了问题排查。 2 问题初步定位 排查r 阅读全文
posted @ 2017-04-14 22:42 孙振超 阅读(27708) 评论(4) 推荐(1) 编辑
电商大促准备流程v2
摘要:1 概述对于电商企业而言,每年都会有几次大的促销活动,像双十一、店庆等,对于第一次参加这个活动的新手,难免会有些没有头绪,因而将自己参加双十一、双十二活动中的过程心得进行下总结,一方面供以后工作中继续使用,另一方面也供大家参考。 2 主链路梳理当前主流的IT架构基本上都是SOA的架构,一个业务的完成... 阅读全文
posted @ 2015-12-02 19:15 孙振超 阅读(1558) 评论(2) 推荐(0) 编辑
osgi: HttpService A null service reference is not allowed.
摘要:最近在学习osgi,在练习HttpService的过程中,一直出现“A null service reference is not allowed”这样的报错,代码本身没有问题,在网上也搜了不少地方,在《深入理解OSGi》、《osgi原理与最佳实践》这两本书中也没有找到具体的解决方法。万般无奈,只好... 阅读全文
posted @ 2014-09-05 16:09 孙振超 阅读(2637) 评论(0) 推荐(0) 编辑
信息传输完整性、保密性、不可抵赖性实现
摘要:信息传输完整性--通过消息摘要实现先通过摘要算法对要传输的信息进行计算得到摘要信息,而后将摘要信息一并传输给接收方。接收方收到信息后,采用相同的摘要算法对原始信息进行计算得到一个摘要信息,而后和从发送方传递的摘要信息比对,如果相等,则表示信息完整,没有被篡改。信息的保密性--通过对称加密算法实现,再... 阅读全文
posted @ 2014-06-11 19:42 孙振超 阅读(8391) 评论(1) 推荐(0) 编辑
团购结算系统多台web服务器全国上线小结
摘要:最近负责的一个项目全国上线,这个系统从2013年2月份开始先进行了6个城市为期4个月的试用,新增了不少关于系统可用性及系统在试用过程中业务方希望添加的功能,同时也修正了几个发现的bug。因为试用期只有6个城市,因而也没有做负载均衡,只是使用了一台web服务器;而全国上线时却有130多个城市,经测算预计访问量将增加20倍左右,为了防止访问量增加而导致web服务器性能下降,同时也为防止一台web服务器... 阅读全文
posted @ 2013-05-27 19:21 孙振超 阅读(511) 评论(0) 推荐(0) 编辑