100G云服务器诞生记

黄色的树林里分出两条路,而我选择了人迹罕至的一条,从此走出了这迥异的旅途。——弗罗斯特

从25数到100,普通人只需要几十秒,从25G到100G,腾讯云用了10个月。

随着腾讯云100G云服务器的全量发布,在云服务器市场,腾讯云从跟进到引领,再到如今真正淌入无人区,腾讯技术人在云服务器领域走出了一条属于自己的康庄大道。

这一切在一年前,还只是一个设想。

纠结:50G还是100G?

按照目前云服务器市场普遍的行情,从25G直接上到100G的还没有先例,稳妥的做法是从25G过渡到50G,再去突破100G这个关卡,而且,目前行业主流云厂商的做法也是如此。

但是这个做法,在腾讯云计算团队在评估下来认为也是一个权宜之计,作为云计算行业的追赶者,即便推出50G的云服务器,对于客户来说也仅仅相当于刚好够用,未来随着用户计算量的不断增加,50G的云服务器会越来越难以适应客户的业务需求

是做50G还是一步到位,直接上100G,成为一个棘手的问题,摆在了腾讯云计算团队面前。

两种方式都各有优点:50G稳妥,行业有现成的经验可以参考,100G先进,代表的是未来的趋势,如果成功,将引领整个国内云计算行业的新一轮变革。

那一段时间,大家经过不记得开了多少腾讯会议。最终,腾讯云计算团队在全面地评估之后,综合各方面考虑,选择直接上100G。

这背后主要有几个原因:其中一个,目前业界硬件的发展驱动了数据的单个节点带宽也要相应增长,其实从很早以前,腾讯云的一些Top级用户,就提了单个节点要支持100G带宽的需求。因为头部领先的一些电商客户,他们在做搜索还有推荐匹配的时候,非常需要海量的计算能力,他们之前遇到的问题就是卡在单个节点的带宽上限上面了。

另一方面,50G毕竟还是一个过渡形态,最终整个业界还是会往100G走。与其亦步亦趋的跟随,不如大胆创新,一步到位,直接从25G升到100G,走一条别人没走过的路。

但是问题和困难也随着出现了。

首先,遇到的一个最大的问题就是时间节奏的问题。

熟悉硬件行业的都知道,一般服务器和交换机硬件都有自身的研发周期,短则1年,长则2-3年也不意外。服务器和网络需要协同配合往前演进,才能最终匹配业务上线节奏,而且往往要求网络要先于服务器交付。

为了满足云上用户尽早用上更高性能云服务器的需求,满足100G服务器的尽早上线,腾讯网络研发团队做了大量工作。针对100G的云硬盘CBS、对象存储COS这类存储类的产品和计算类的云服务器CVM等对于100G性能上的需求的差别,网络架构研发团队结合腾讯云业务场景和流量特点,制定出了一套最优的网络架构,在既能满足计算类产品的高性能需求,也能满足存储类产品高可用等需求,同时满足了从公司运营的角度低成本的诉求。

另外,每一款云服务器产品都有自己的生命周期,在这个生命周期里面,有着大量的需要持续优化的工作在里面。第一个需要持续优化的事情就是运营成本,为了支撑云产品对外达到一些很好的性价比,100G云服务器不仅要在技术和性能上全面领先,在价格或者性价比上也要保持在行业领先地位。虽然各种需求很急迫,但是在各个兄弟研发团队专业的支持下,这些困难最终都顺利克服。

执着:全面自研

为什么要自研?

目前市场上各种类型的商业设备应有尽有,为什么要大费周折,从零开始。

“腾讯云业务的高速发展不仅推动了上层应用的发展,也对基础网络提出了更高的要求。比方说,这次的100G星星海服务器在规划的时候,市场上还没有可以满足腾讯网络架构要求的商业交换机。得益于过去几年腾讯在自研网络的持续投入和积累,自主可控、迭代速度更快的全自研交换机顺理成章成为我们的首选”,腾讯网络研发团队的luishuang说。

何况,腾讯云凭借对多年对自身海量业务的支持以及百万级客户的服务经验,已经在多个层面沉淀了领先的技术基础。

以数据中心网络DCN来说,从2005年的100M服务器,单数据中心小于1000台服务器接入,到2015年的10G服务器,单数据中心可支持规模超过10000台服务器接入,再到如今单集群最大可容纳60000台 100G 服务器,并且可兼容接入 25G/50G 云服务器,腾讯云网络从商业再到自研这条路上越走越扎实。网络硬件专家petercui介绍到,腾讯云自研 100G 网络架构采用完全自主研发设计的硬件交换机和互联模块,交换机创新采用自主可控的乐高式部件设计,极简无背板去PHY设计,搭配腾讯自研网络操作系统 TCSOS,具备全自动化运营能力,可以实现无损升级、秒级状态获取、主动故障探测等,能够帮助客户更快速的发现网络中的故障隐患,避免故障给用户业务造成影响。

采用自研技术的远远不止网络。

在服务器硬件层面,腾讯云100G云服务器全面基于星星海自研服务器灵动水系 AC221 和灵动水系 XC221 打造,进一步提升了云场景适配度。

星星海自研服务器采用了业界领先的设计,非常适用于云数据中心。星星海的前瞻性高兼容架构,支持多平台平滑切换,统一规划的硬件底座,可以支持未来3-5年的服务器产品演进。通过深度优化定制,使得服务器在安全性、散热性、计算能力及综合性能也大幅提升。

尤其在21年全球缺“芯”潮的背景下,服务器与交换机供应链团队携手,攻克了一个又一个缺"芯”的难关;网络与服务器团队的高效协同,一步步实现产品各关键里程碑的如期交付。

忐忑:什么时候全量

云服务器产品lenxyliu在回忆这次100G云服务器上线过程中,最大的感触是没有发现故障,稳定的让人出乎意外。

放在以前,一款新服务器上线,用户在试用的过程中多多少少也会反馈一些问题,这次竟然零故障,稳定和平滑到令人难以置信,头部的几个大客户在测试之后,就直接上量。

但是在没有正式发布之前,大家的心都是悬着的。

“之前一直是25G用了很多年,我们也不知道25G到100G要去做哪些验证,能做的就是把一切该有的测试都测试完,但即便如此,各个团队依然很纠结。”lenxyliu说。

“当时这个时间点,大家还是有比较多轮的讨论的,这个确实是很大的升级,也用了很多很新的技术。”

各个团队也协调公司级资源进行压力测试,在满足所有预设条件后,项目负责人最终拍板8月底全量发布。

在软硬件一体化研发加持下,国内首个规模应用100G超大网络的云服务器产品系列,在行业中率先实现单节点接入高达 100G 的超大带宽,相比上一代传输效率最大提升400%,能够为典型的企业级软件、数据库、搜索、高性能计算等应用带来全方位的性能与稳定性升级,尤其适用于视频弹幕、直播、游戏等网络应用场景。

各项性能也达到了预期设想:

网络转发能力提升2.8倍,最高可达1900万PPS;

单实例可支持会话数提升3倍,最高达1600万;

最新支持超高性能云盘,最高云盘带宽达 64G;

计算性能提升最大220%;

存储性能最大提升100%;

支持业务集群的极速拓展,单集群最大可容纳60000台;

……

目前,腾讯云 100G 云服务器也已在电商、社交、游戏等多个业务场景中得到充分验证。腾讯广告的用户特征计算场景实测第六代云服务器性能提升了43%,腾讯微信业务实测第六代云服务器单核性能较上一代提升18%,雪中大世界、天涯明月刀等游戏应用中实测吞吐性能也显著提升20%以上。

随着100G云服务器的推出,腾讯云也将带着自身在云计算领域的诸多技术优势,参与全球的科技竞争。

posted on 2021-11-15 11:30  云计算头条  阅读(107)  评论(0编辑  收藏  举报