数据中心网络架构演进 — 从私有云到多云到混合云
2020-03-01 18:43 云物互联 阅读(2599) 评论(0) 编辑 收藏 举报目录
文章目录
前文列表
《数据中心网络架构演进 — 从传统的三层网络到大二层网络架构》
《数据中心网络架构演进 — 从物理网络到虚拟化网络》
《数据中心网络架构演进 — CLOS 网络模型的第三次应用》
《数据中心网络架构演进 — 从 Underlay 到 Overlay 网络》
《数据中心网络架构演进 — SDN 将控制面与数据面分离》
历史背景
-
企业上云已是大势所趋:通常的,企业上云会分阶段进行,第一阶段通常是外包的、互联化的非核心应用最先上云;第二阶段是企业办公应用上云;第三个阶段则是企业的核心生产系统、控制系统上云。以此推进,企业对云的依赖逐步提高,企业本地与云端的网络连接质量自然就成为了关注的焦点。
-
混合云兴起:当单纯的公有云或私有云不再能够满足企业的生产业务需求时,多种云环境并存是企业 IT 能力适应企业业务发展的唯一方向。在混合云环境中,网络要如何应对云于云之间的连接成为了重中之重。
-
云计算的 2.0 时代:应用云计算的主体从互联网行业扩展至传统行业,随着各个 B2B 市场的出现,跟云相关的 ICT 的需求也逐步增强,网络首当其冲。
混合云
目前业界广泛认同的混合云概念源自 NIST 发布的云计算定义,该定义赋予云计算五大特征、3 类业务模式、4 种部署模式。
- 五大特征:是资源池化、按需自助服务、宽带网络接入、快速弹性、服务可计量;
- 3 类业务模式:是 IaaS(基础设施即服务)、PaaS(平台即服务)、SaaS(软件即服务);
- 4 种部署模式:公有云、社区云、私有云、混合云。
其中,混合云是其他几种云计算部署模式的结合体,支持客户应用在云间的数据共享、自动部署、灵活迁移和按需扩展。混合云通常被认为是 “两全其美”,结合了私有云与公有云的优势。对于混合云的定义,中国信息通信研究院曾经提出过观点,必须要同时拥有公有云和私有云,这也是大多数厂商和用户的认知。
概括性的,混合云具有以下几个关键优势:
- 兼容传统和互联网应用,同时实现敏捷性和安全
- 实现规划内和规划外的灵活扩展
- 实现 DevOps 的快速迭代
- 成本效益
NOTE:需要注意的是,混合云 与 多云 具有不同的含义。多云的形态更为多样。
- 多公有云的混合
- 多公有云、私有云的混合
Why hybrid cloud?
得益于快速部署、价格低廉和资源配置灵活,早期公有云市场的主要客户是互联网企业和中小型企业。近些年,随着公有云的服务越来越丰富、服务体系越来越完善、价格也在不断的降低,大中型企业也逐渐考虑如何从公有云中获得效益。从务实的角度出发,没人愿意将企业的命根(核心数据)交付他人,但从利益的角度出发,企业永远追求效益最大化,这就是混合云需求的根本诱因。混合云是大中型企业云计算的应用方向。
而且从云计算市场垂直细分的发展路径来看,单一企业对云计算的需求贯穿 IaaS、PaaS、SaaS 将会成为常态,混合云能够提供统一的资源编排平台。
- IaaS:企业的敏感数据会长期存在于在私有云,或企业数据中心,或是租用的公有云服务器中。
- PaaS:企业开发者利用公有云服务提供商持续释出的技术积累来提升自身人工智能算法、数据库方面的创新能力。
- SaaS:企业数字化转型推动采用云化的办公应用服务,比如:Azure Office 365,WorkDay,SAP 等企业应用。
举个例子:你认为从 0 开始搭建一个类似滴滴的后台雏形需要多长时间?
以谷歌云为例,最早云计算提供最简单的虚拟机和存储服务。客户需要维护自己的数据库和创建自己的算法代码。最新的云计算公司提供更完整服务,开放最新的数据库技术,提供人工智能机器学习算法(AI/ML),并且提供的完整的数据处理架构。举一个简单的例子,最近参加谷歌新加坡 Google 云研讨会,他们介绍如果从头开始一个类似滴滴的 Beta 项目, 对某个城市例如北京,实时检测司机在地图上的具体地点,乘客的路径规划要求需要匹配最优的司机。而且需要很多前台/后台工作,包括架设很多服务器处理海量请求等等。大家可以想像,如果从头开发,需要多少人来做一个类似的 APP?正常情况下大概需要 30-50 工程师,至少需要 6-12 个月开发。在谷歌云上已经提供包括地图映射,路径规划算法和信息流处理,并且很容易 Scale Out 处理海量请求。利用这种成熟的 Cloud 开发环境,一个有经验的工程师,二十分钟左右可以做一个类似滴滴雏形的后台系统。可以看到越来越多的中小企业不光采用云服务来获得便宜的计算和存储资源,越来越多的企业采用混合云来利用云公司的先进技术,数据库,人工智能算法,大规模消息处理等等来加速创新。云服务成为创新的催化剂,并且极大提高和简化技术易用性,使得中小企业不需要高端算法工程师,也能很快地推出很酷的主意,解决客户痛点。
– https://www.sdnlab.com/21293.html
再举个例子:你认为获取千台数量级的服务器扩容需要花费多少成本和时间?
2015 年的春晚,在不到 2 天的时间内共完成 1375 台阿里云 ECS 的扩容,实现了无降级业务的情况下平滑地抗住了春晚的峰值。
– https://www.infoq.cn/article/weibo-DCP1
一言以蔽之,未来的云计算不会仅仅是提供计算、存储资源,而是提供一切企业用户需要的技术平台。混合云就是企业整合技术堆栈,继而追求利益最大化的最佳手段。
混合云市场
全球范围内,混合云已经成为企业用云的主要形式。根据 RightScale 2019 年云状态报告,有 84% 的受访企业采用了多云战略。其中,使用混合云的企业比例继续提高,由 2018 年的 51% 增长到 2019 年的 58%。
从国内市场来看,企业应用混合云的比例仍处于较低水平。根据中国信息通信研究院调查统计,2018 年我国企业应用云计算的比例接近 6 成,其中采用混合云比例为 14%,相比 2017 年小幅度上升。中国信息通信研究院发布的《中国混合云发展调查报告(2019年)》显示,减少基础设施投资是企业采用混合云的首要原因。在企业应用混合云原因的调查中,因减少基础设施投资而选择混合云的企业占比最高,达到 56.3%,与去年相比提高了 1.6%。企业通过将并发量较大的应用迁移到混合云中的公有云上,来满足峰值处理需求,同时减少相应基础设施的投资。其次,46.8%的企业因资源拓展速度快而应用了混合云,与 2017 年相比提高了 2.6%。此外,企业应用混合云的原因还包括:增加平台可靠性(25.6%)、提高平台安全性(23.4%)和同业内已有典型应用案例(22.3%)等。缺少适合的解决方案是企业尚未应用混合云的首要原因。调查显示,出于缺少适合解决方案而未使用的混合云的企业占比达到 37.5%,与 2017 年相比提高了 12.4%。随着企业对于混合云的接受程度逐步提高,企业迁移上云的需求更加多样化,解决方案的适配性仍有较大的提升空间。其次,30.7%的企业因现有技术不够成熟而尚未应用混合云。其他因素还包括:没有明确的监管指引(19.2%)、混合云带来的优势不明显(18.3%)等。
- 灾难恢复、数据备份和负载扩容是混合云三个重要的应用场景。
- 单独管理各平台是企业最重要的混合云管理方式。
- VPN 和专线是应用较为广泛的混合云平台间的网络连接方式。
- 网络连接不够稳定是企业应用混合云面临的首要问题。
– http://www.caict.ac.cn/kxyj/qwfb/bps/201907/P020190704511581594525.pdf
随着云计算市场激烈的竞争,原来各自领域的玩家都在进行全方位的渗透,原来的公有云服务提供商,或者现在称之为云服务提供商会更加贴切。AWS、Azure、阿里云处理公有云之后,都提出了自家的私有云、专有云(公有云的专有化)、混合云全家桶方案,进一步压缩了私有云初创企业的生存空间。笔者切身的体会到,在经过了一轮洗牌之后,更多的私有云初创公司都转向、或考虑转型深耕云生态周边的服务市场,不再以单纯的云产品与大型厂商正面对碰。相反,现在仍以私有云服务立足的公司都是经受住市场考验的公司,它们都找到了赖以生存的支点,或容器、或边缘 5G、或高级人力外包服务。
混合云的逻辑架构
下图为混合云的典型逻辑架构,该架构由企业内部的私有云、云服务提供商的公有云、混合云网络和统一管理模块以及用户等组成。
公共云、私有云在混合云中的工作方式与其各自独立运行时没有什么不同。通过应用编程接口(API)、虚拟专用网络(VPN)或广域网(WAN)将这两个环境尽可能无缝地连接到一起,就把私有云和公共云组合成了混合云。只有这样互联互通,混合云才能发挥作用。否则,就只是单独的公共云+私有云。在此之上,混合云主要实现了 混合云网络 和 混合云管理 两大功能模块,前者负责多云间的互联互通,后者负责将资源抽象化并汇集到混合云中,以统一的自服务管理平台调度管理这些资源并负责置备新的运行环境。并在此基础上实现负载迁移、云爆发、云灾备等混合云能力。可见,网络连接的完善程度对混合云的工作效果有至关重要的影响。
混合云架构中的关键技术主要包括: 云应用架构、混合云网络、混合云管理(资源、业务、计费)、负载迁移、云爆发、云灾备、互操作性。
混合云架构需要解决以下问题:
- 集成联网:通过网络无缝连接多个云,以创建一个统一的企业环境。
- 集成身份和权限:要做一点接入,全网互通。
- 数据集成:数据通过网络在多云中流传。
- 集成资源和部署管理:跨多云集成应用程序部署和管理。
- 集成设备和边缘系统:本地物联网设备或边缘的系统可以直接接入公有云中,而不需要通过私有云中心系统再上报到公有云。
- 管理及自动化编排软件:允许用户通过由自动扩展和动态资源分配支持的自助服务门户按需、且无感的访问多云资源,私有云、公有云双线提取资源,并交替使用这两种云。
混合云应用场景
灾难恢复
混合云的灾难恢复一般采用主从架构。在这种架构下,用户可以把备用的业务数据放在公有云上,借助公有云提供商的技术优势、灾备经验、运维管理等资源,快速实现数据灾难恢复,保障服务的连续性。同时,与全部使用私有云相比,混合云的灾难恢复还可以降低运维工作量,节省灾备系统成本。在私有云数据中心发生重大灾难时,用户可以在公有云端利用云主机快速切换,将备份数据拉起,大幅降低 RTO,实现业务高可用。
数据备份
数据备份的目的是把某一时间的数据或应用保存在一个安全可靠的地方。通常的场景是应用负载运行在公有云或私有云上,而数据备份放在私有云或公有云里,以达到安全稳定的目的。
负载扩容
在这个场景下,应用部署通常在私有云里,在某一特定时间,应用访问或使用会突然增加,当企业无法快速添置硬件扩展私有云容量去适应这变化时,混合云平台应能通过公有云来弥补暂时的容量不足,达到调峰目的。比如,在月末或季末,企业财务系统通常都需要计算生成大量各种报表,这时就可以短暂租用公有云弥补计算资源的不足,而不是扩容私有云,否则,会造成大部分时间的资源浪费。
应用部署
对于拥有多个分支的企业,尤其是跨国企业来说,如果业务都由总部数据中心来集中处理,随着业务量的增加,总部的处理能力和接入带宽将明显成为瓶颈。通过混合云方案,将前端服务部署在公有云上,利用公有云多 Region 和 CDN 的优势使服务尽量靠近最终用户,后端仍部署在总部私有云中。前端处理完成后,只需要少量的前后端交互访问即可完成整个业务处理。
混合云提供跨云安全、可信的网络通道,连接公有云侧的租户环境与企业侧的私有网络,保障通信质量及安全可靠性;同时实现分布在私有云和公有云上的应用和 IT 资源的统一管理,包括统一的组织目录结构、用户身份认证等,保证企业对业务的管控能力。通过这样的混合云跨云协同部署,可以大幅提升系统的服务能力和用户体验。
开发测试生产部署
对一个应用而言,其开发测试过程一般需要灵活快捷的环境搭建,而且期间经常重构,这时公有云是个不错选择,而一旦正式上线,则希望运行在安全稳定的环境中,那时就会考虑私有云。在这种情况下,同一应用不同阶段相互之间独立,没有直接联系。通过构建混合云,利用 DevOps 流程与工具,就可同时获得公有云灵活快捷和私有云安全稳定的好处。
混合云产品
多云管理产品
公有云与私有云是两朵不同的云,都有自己的服务门户,而且彼此对资源的使用方式也是不一样的,公有云通常是预付费式,只要帐户里的费用足够,就可去开通与使用相应的云服务;而私有云通常是审批式,云平台只计费,但不需要支付,只需要走完相应的资源申请与审批流程,便可以去使用相应的云服务。
混合云首先需要解决的就是服务门户的统一、资源状态监控界面的统一,在一个平台上实现云资源的统一申请、统一审批、统一监控、统一计费,即多云管理平台 CMP。这样才能大幅度降低用户跨平台切换带来的复杂运维工作量,让用户跨平台的资源使用与监控更加方便。
多云网络互联产品
主要是一些网络厂商在做,帮助用户快速完成私有云与公有云网络的对接服务,达到互联互通的目的。包括 VPN、VPC 等技术。其中,VPC 是在云内单独为某一租户划分一块专有的区域,提供虚拟主机、存储、网络、安全相关资源,让租户在公有云上构建属于自己的 “私有云”,再经由 VPN 技术实现本地私有云和远程 “私有云” 的互联。
异地容灾、备份、迁移产品
公有云的存储资源可以看成无限大,而且使用成本低,但公有云存储最大的问题就是数据的安全性与远程访问的时延,因此公有云存储最适合做企业数据的备份归档和异地容灾,而私有云存储适合做企业核心业务的在线存储。
- 容灾产品:主要是新一代的容灾厂商在做,例如:Veeam,可以将本地 VMware vCenter 的虚拟机与公有云中的虚拟机建立容灾,当本地虚拟机故障时,可以马上在公有云上启动并建立业务网络,以此达到容灾的效果。
- 备份产品:主要是存储厂商在做,例如:XSKY,通过用户自定义的策略将用户的数据备份到公有云,并可以恢复到本地。
- 迁移产品:有一些新兴的初创公司和公有云服务提供商自己在做,例如:AWS Storage Gateway,通过存储网关建立本地存储和公有云存储的连接通道。
公有云基于 Overlay 技术提供的 VPC 混合云网络架构
- AWS VPC
- 阿里云 VPC
- OpenStack VPC
虚拟私有云/网络(VPC)
VPC(Virtual Private Cloud,虚拟私有云)是一个容易让人误解的称谓,是云?是网?让人迷惑。其实从服务和技术的角度分别来看 VPC 即是一种云,也是一种网络模式。
VPC 最早由 AWS 在 2009 年提出,不过 VPC 的一些组成元素(网络、存储、计算)在其提出之前就已经存在。VPC 只是将这些元素以私有云的视角重新包装了一下,单一用户的云主机只能使用 VPC 内部的元素。所以 VPC 的本质是公有云服务商以打包的形式提供服务。
用户可以在公有云上创建一个或者多个 VPC,每个部门一个 VPC,对于需要连通的部门创建 VPC 连接。同时,用户也可以通过 VPN 将自己内部的数据中心与公有云上的 VPC 连接,构成混合云。不论哪种用例,VPC 都以更加直观形象让用户来设计如何在公有云上存放自己的数据。
从服务的角度来看:云计算可分为公有云、私有云、和混合云,但 VPC 这三者都不是。VPC 是一种运行在公有云上,将一部分公有云资源为某个用户隔离出来,给这个用户私有使用的资源的集合。它由公有云管理,但是保证每个用户之间的资源是隔离,用户在使用的时候不受到其他用户的影响,用户可以要求享受管理面、数据面、故障面的三重隔离,感觉就像是在使用自己的私有云(孤岛)一样。
VPC 有两种硬件租用模式,共享(shared)和专属(dedicated)。前者指 VPC 中的虚拟机运行在共享的硬件资源上;后者是指 VPC 中的虚拟机运行在专属的硬件资源上,不同 VPC 中的虚拟机在物理上是隔离的,同时 VPC 还帮助实现了网络上的隔离。专属模式相当于用户直接向公有云服务商租用物理主机,适合对数据安全比较敏感的用户。
NOTE:专属 VPC 与私有云的多租户隔离有本质的区别,多租户隔离是为了 “共享” 底层基础架构的物理资源,只能做到管理面和数据面的隔离,做不到故障面的隔离(因为物力资源是共享的)。
从技术的角度来看:VPC 是用户专属的一个二层网络,是一个构建在 L3 之上的 L2 Overlay 网络。VPC 的数据封装与 VxLAN 之类的 Overlay 网络技术很类似,原始的二层帧,被 VPC 标签封装,之后再封装到另一个 IP 数据包内。
NOTE:VPC 虽然指的是专有二层网络,但是跟网络配套的资源有很多,这些网络资源都是以 VPC 作为单位划分。定义在一个 VPC 内的网络资源,只能被这个 VPC 内的虚机使用。这些网络资源包括:Security Group, Subnet, Network ACL, Routing Table, Router。
VPC 的实现原理
在 AWS VPC 内,存在多个可用域(Aviable Zone),用户可以自由地划分 Subnet CIDR 和定义路由策略,可提供网络 ACL 及安全组的访问控制。一般的,VPC 会提供一个 Internet GW,做 NAT/LB 和 VxLAN Routing,还会提供一个 VPC GW,提供 IPsec 接入 VPC 互联和企业远程上云(Cloud Onboarding)业务。
VPC 的本质就是一个租户专属的二层网络,所以同样存在 L2 广播域跨 POD 的问题,这个问题我们在之前已经提到过,不再赘述。总之,VPC 解决这个问题的方案依旧是采用了 Overlay 技术。可见,VPC 通常是一个 L2 in L3 或 IP in IP,甚至是 VLAN in VLAN(QinQ)的 Overlay 网络。
OpenStack 的 VPC 可以使用 VxLAN 技术来实现,而 AWS VPC 拥有自己专属的 Overlay 封装技术 Mapping Service。当虚机之间要通信的时候,请求先发到 Mapping Service,再由它找到目的虚机对应的信息(e.g. 目的虚机所在的主机 IP 地址),Mapping Service 用对应的信息,封装成 Overlay 网络包,再进行传输。
这里的 Mapping Service,与 SDN Controller 的作用可以说是一样的。SDN Controller 掌握了所有的网络信息,当需要进行二层,三层通信时,SDN COntroller 会根据网络数据包下发 OpenFlow 流表,使得虚机之间直接通信。Mapping Service 还是一个分布式的 SDN 控制器,因为每个主机上都有一个 Mapping Service 的缓存。通过这种分布式,可以实现高速运算处理。
AWS 还提供了一个 Edge(边缘)设备(Blackfoot Edge Device),它使得 VPC 变得异常强大,是公有云厂商的真正竞争力的所在。通过这个 Edge,VPC 可以做到:
-
与别的 VPC 相连
-
与互联网相连
-
与用户私有云的 VPN 相连
-
与 AWS 的其他服务相连
有了这样的 Edge 设备,VPC 不再是孤岛,而是有了连接其他陆地的桥梁,打通了公有云、私有云、混合云网络。这里的 Edge 设备,可以看成是 VNF,AWS 需要用户在 VPC 内部手动配置路由来引流到这个 Edge 设备。 -
VxLAN
-
Mapping Service
VPC 的接入
还是以 AWS VPC 为例,VPC 通常会有一个 IGW(Internet GW)提供缺省路由 NAT/LB 等功能。还会提供一个 VGW 来提供 IPSec 互联。AWS 提供了一个边缘设备(Blackfoot Edge Device)来提供 VGW IPSec 功能,它使得 VPC 变得异常强大,是公有云厂商的真正竞争力的所在。
通过这个边缘设备,AWS VPC 可以做到:
- Private Link:满足多个 VPC 互访需求,用户可以在 VPC 上注册一个私有链路(Private Link),在 VPC上 提供 Elastic Network Interfaces(ENI),其他 VPC 可以通过这个 ENI 以白名单方式访问对应 VPC 的资源。
- Internet traffic:与互联网相连,走 IGW。
- VPN:与私有云的 VPN 相连。
- S3/DynamoDB Endpoints:与 AWS 的其他服务相连。
企业可以通过以下方式接入 AWS VPC: - Direct Connect:在 IXP/Colo(互联网交换中心)数据中心,通过 VPC 路由器和企业本地路由器上的 VLAN 接口,连接 VPC 和企业网络,并且支持 BGP 路由分发。可以提供高达 80Gbps 的大带宽接入。
- IPsec VPN:通过 IPsec 连接到 VGW,提供大概 1Gbps 的接入带宽。
- SD-WAN 接入:采用 SD-WAN 技术,这个我们在后续的篇章中详细再谈。