摘要: 问题背景 前不久技术学院负责人让我帮助维护下⼤讲堂、积分管理等⼏个系统。这些系统功能都已经很稳定,也不会再有新的功能开发,但是⼤讲堂系统自上线后,每过⼀段时间就会出错,导致学员⽆法报名课程,希望我帮助解决下。这种累积下来的问题解决起来⽐较难,但是对能⼒提升帮助很大,我欣然接受了,所以就有了这次“艰苦 阅读全文
posted @ 2020-12-17 15:41 AI乔治 阅读(268) 评论(0) 推荐(0) 编辑
摘要: 从HTTP请求超时、重试机制、操作系统网络等层面剖析了事故的原因,最终解决业务问题。 这里先抛两个问题:1)你遭遇过由于网络连接或请求超时造成的生产事故吗?2)你知道操作系统默认的网络连接超时是多少秒? 问题背景 最近同事出现这么一个问题,简单业务场景: 服务A使用HTTP请求服务B接口m。服务A起 阅读全文
posted @ 2020-12-17 14:54 AI乔治 阅读(656) 评论(0) 推荐(0) 编辑
摘要: 这篇文章是我在公司 TechDay 上分享的内容的文字实录版,本来不想写这么一篇冗长的文章,因为有不少的同学问是否能写一篇相关的文字版,本来没有的也就有了。 说起来这是我第二次在 TechDay 上做的分享,四年前第一届 TechDay 不知天高地厚,上去讲了一个《MySQL 最佳实践》,现在想起来 阅读全文
posted @ 2020-12-17 14:23 AI乔治 阅读(289) 评论(0) 推荐(0) 编辑
摘要: 一、问题 模型服务平台的排序请求出现较多超时情况,且不定时伴随空指针异常。 二、问题发生前后的改动 召回引擎扩大了召回量,导致排序请求的item数量增加了。 三、出问题的模型 基于XGBoost预测的全排序模型。 四、项目介绍 web-rec-model:模型服务平台。用于管理排序模型:XGBoos 阅读全文
posted @ 2020-12-17 14:18 AI乔治 阅读(340) 评论(0) 推荐(0) 编辑

作者微信号:wm1106701116 (备注:博客园) 加入微信架构群,获取架构师学习资料。