大促高并发系统性能优化实战--京东联盟广告推荐系统
当一个推荐系统面临高频、瞬时、大幅的流量突变时,如何在维持稳定性的同时,最小化推荐效果损失?
背景
618对京东来说是一场重要的营销盛会,大促将为业务各个层面带来爆发式增长。然而,超大规模的流量洪峰也对京东各系统提出了严峻考验。
京东联盟是京东的联盟营销平台,主要通过投放站外CPS广告来推广京东商品。联盟合作伙伴生成链接并在其他网站或社交媒体平台上推广,用户通过点击这些链接在京东购物,合作伙伴则获得销售提成(佣金)。京东联盟通过这种方式吸引流量,扩大平台的可见度和用户接触范围,实现拉新促活等目标。作为联盟业务流量的主战场,京东联盟推荐系统在大促期间面临着流量突变的巨大挑战。由于业务本身及营销活动和站外媒体引流推动的影响,大促期间推荐系统的流量呈现以下特点:
图中流量 QPS在19:59:57秒从3.7K开始增长,20:00:01秒达到峰值2.9W,随后的1分钟内逐步回落。流量在4秒内增长9倍,整个拉升和回降过程在1分钟内全部完成。
问题&挑战
面对上述流量变化的挑战,联盟推荐系统的备战面临以下重大障碍:
方案设计
因此,在推荐系统领域中,为了有效应对高频、瞬时、大幅的流量突变,我们需要一种“自适应”能力。这种能力应具备以下特性:
1. 差异化控制不同场景链路
2. 自动化执行,无需人工干预
3. 敏锐感知并随流量变化进行调整
4. 流量洪峰过后自动恢复至完整推荐
5. 最小化推荐损失
方案实践
为实现上述自适应降级与恢复的能力目标,我们以如下思路进行方案设计。首先,监控不同场景流量的推荐耗时,根据性能变化将流量划分为主力流量和降级流量。接着,根据各召回通路、粗排、精排和重排的业务贡献及耗时,在总耗时限制下求得最优组合,确定降级链路。然后,通过调用链动态生成模块,生成实际的调用pipeline。最后,通过实时组织pipeline调用,完成整个降级推荐过程。
与此同时,在降级流量中,抽取小部分流量作为探测流量,检测流量洪峰是否已过去,以便及时进行降级恢复。以下是详细的设计实现:
1、实时高效性能感知
1.1、配置化超时阈值和守护协程
由于UMP统计数据对非0级黄金流程系统不开放秒级数据查询权限,并且UMP数据可能因流量不均衡等原因与具体实例机器上的性能存在较大差距,故而采用以下方法:
1.2、威尔逊置信区间算法修正超时率
为了避免在流量低谷时的统计误差,引入威尔逊置信区间算法修正超时率。具体的Wilson修正公式如下:
其中,P为当前统计的秒级超时率,WilsonP为置信超时率,z = 1.96(95%的置信水平)。
2. 差别化场景控制
3. 流量切分实现细粒度逐步降级
4. 动态线性规划推荐链路
根据各召回通路、粗排、精排和重排的CTCVR贡献值及其当前耗时,进行线性规划,在耗时限制下求得业务贡献最大化的最优解。
其中,E1i为各召回通路的业务收益,E2、E3、E4分别为粗排、精排和重排的业务收益;T1i为各召回通路的当前耗时,T2、T3、T4分别为粗排、精排和重排的当前耗时(各模块的99耗时统计视情况配置为实时/近线方式,1~3秒);各W取值为0或1。问题即为求上述线性规划下的最优W组合,每当超时率发生阶跃变化时,重新计算最优解。
5. 实时组织pipeline调用
在得出上述W组合之后,由调用链生成器生成实际的调用关系pipeline,再交由管道调度器来组织调度完成整个推荐过程。
6. 小流量探测,阶梯式自动恢复
在降级状态下,周期性地从降级流量中抽取一定的小流量进行降级回弹测试,以监控是否流量回落或系统自动扩容。
7. 业务无关API,低成本移植
自适应降级模块设计了与具体业务无关的通用交互接口,包括收益与耗时数据输入、超时阈值设置、降级标志与降级组合查询等,可低成本移植到其他业务系统中。
在上述基础上,配合统一的限流防护和公司动态扩缩容技术,理论上联盟推荐系统可以做到足够的稳定性和推荐效果保障。以下是京东联盟自适应降级&恢复推荐系统的整体架构图:
大促效果
本方案大促期间的业务效果有:
以上就是京东联盟广告推荐系统在大促期间保障稳定性和效果的相关工作,随着广告推荐业务进入存量时代的深水区,以及新推荐技术的不断涌现,我们要持续进化推荐系统,也欢迎大家一起交流学习。