数据中心、POD 和 ToR 交换机布线
【什么是基于POD的设计】
·一组基于容量和应用的机柜
>划分独立的区域,也常被称为“halls”或“cells”
>通常由两排对称的机柜组成
>与通道封闭系统兼容
·在数据中心的生命周期内使用模块化、可复制的扩展方法
>区别于传统的按需混搭设计
>初始pod是日后增量扩展的模板
------------------------------------------------------------------------------
【基于POS设计的优势】
·可复制且保持一致性的设计过程
>应用指定的机柜和部件在POD之间可复制
>供电、散热和空间要求也可以被复制
·有模块化带来的快速扩展
>简化规划和订购-没有意外!
>可预期的部署过程(时间、人工等)
>减少新建、扩展和升级的时间和风险
·可扩展、面向未来
>整个数据中心的需求易于事先确定
>易于添加数据中心制冷单元
------------------------------------------------------------------------------
【基于POD设计的V-Built】
·每个V-Built机柜单独的型号和BOM
>网络、服务器和存储机柜
·增加POD很容易实现
>无需重新设计每一个机柜或重新设计组件
>多个POD可以共享V-Built型号
·可预期的成本
>设定每一个V-Built型号的价格=设定每个POD的价格
>可计算的每个POD安装时间、能耗成本、供电和制冷
·运输方便,节省成本
>V-Built将机柜部署时间减半
>V-Built单一POD供应商
服务器多网卡接入简介
服务器NIC Teaming(多网卡接入)
服务器NIC Teaming,也称单机链路的负载均衡,一般指的是单台服务器利用多个网卡进行绑定而实现的负载均衡。
不同网卡芯片的产商除了网卡自身的驱动外,还会提供管理软件来使能多网卡的负载均衡。同时,在不同的操作系统下,如Linux,本身自带了网卡负载均衡的驱动。
简单来讲,Teaming就是把同一台服务器上的多个物理网卡通过软件绑定成一个虚拟的网卡,也就是说,对于外部网络而言,这台服务器只有一个可见的网卡。对于任何应用程序,以及本服务器所在的网络,这台服务器只有一个网络链接或者说只有一个可以访问的 IP地址(备注:MAC地址不一定相同,原因详见后面的技术原理描述)。之所以要利用Teaming技术,除了利用多网卡同时工作来提高网络速度以外,还有可以通过Teaming实现不同网卡之间的负载均衡(Load balancing)和网卡冗余(Fault tolerance)。
单服务器多网卡采用NIC Teaming技术可以将2张或最多可达8张网卡捆绑在一起使用。
服务器Teaming-Linux
Round-robin:
所有链路处于负载均衡状态,轮询方式往每条链路发送报文,基于per packet方式发送。默认情况下使用eth0(第一张网卡)的mac为绑定接口的mac,所有绑定下的接口都用这个mac。这种模式既增加了带宽,同时支持容错能力;但是会导致网络报文传输出现乱序,需要交换机端创建AP来支持。
Active-backup:
只有一张网卡处于Active状态,负责发送和接收报文,其他都处于standby状态,不发送和接收任何报文。所有网卡共享相同的MAC和IP。这种模式支持容错能力,没有实际增加带宽。
Load Balancing (XOR):
采用取报文字段进行hash计算的方式来增加带宽,同时保证到达特定对端的会话流量总是从同一个接口上发出,保证该会话的报文顺序不乱,需要交换机端创建AP来支持。
Fault-tolerance (broadcast):
该模式下完全相同的报文会往所有接口都拷贝一份发出去。比如:ping一个报文到服务器,服务器会同时发两个接口都发完全相同ICMP回应报文。
该模式不是真正意义上的链路聚合,只是简单的将报文广播的所有的接口,目的是将报文广播到不同广播域来保证高可靠性。该模式的应用需求比较特殊,不同网卡连接的不同交换机间没有连接,且属于不同网段,而此时又需要单条流能同时到达两个不同的网段,就需要通过该模式来配置服务器。
LACP:
这种模式就是交换机的动态AP:IEEE 802.3ad Dynamic link aggregation。将相同速率、双工的端口动态(允许自动)聚合在一起。同时可以通过调整参数来指定hash算法。需要交换机端启用LACP来支持。
Transmit Load Balancing:
TLB模式通过对端均衡出口流量。由于是根据MAC地址进行均衡,在三层网络配置下,该模式会通过单个设备来发送所有流量,然而在二层网络配置下,该模式以相对智能的方式(不是Load Balancing(XOR)或802.3ad模式里提及的XOR方式)来均衡多个本地网络对端,因此那些特殊的MAC地址(比如XOR得到同样值)不会均衡到同一个接口上。该模式也不像802.3ad,该模式的接口可以有不同的速率,而且不需要特别的交换机配置。不利的一面在于,该模式下所有入口流量会到达同一个接口。
该绑定模式下,绑定接口的MAC和优先级最高的网卡MAC一样(默认是第一个绑定接口),其他网卡MAC保留自己原来的MAC(这个和之前5种模式不同,前面所有网卡的MAC和绑定接口的一样。)
Adaptive load balancing:
该模式包含了TLB模式,同样会发snap报文来检测链路。同时加上针对IPv4流量的接收负载均衡(Receive Load Balance, RLB),而且不需要任何交换机的支持。
服务器NIC Teaming对网络要求
需交换机支持静态AP,需交换机支持802.3ad LACP。
某些场景下需要支持跨设备的AP,即需要交换机支持VSU或IRF、VSS等(主要是为了简化管理的目的)。
需要注意AP的流量均衡算法,根据不同的网络流量需要进行调整,调整包括交换机端和服务器端的负载均衡算法,保证服务器端出来的报文能够均衡到多个入口上,也要保证从交换机端输出的报文能够均衡到多个出口。
服务器多网卡接入部署
U型组网:不建议使用
方案优点:
不启用STP,好管理;网络络接入层不存在二层环路,接入层交换机可以不启用生成树协议,因此网络的配置管理简单。
双active链路,接入交换机密度高。
方案缺点:
从接入交换机到汇聚交换机缺少二层冗余路径,方案不具备高可用性。
VLAN不能跨汇聚层,服务器部署不灵活;服务器的接入VLAN不能跨汇聚层,服务器不能实现跨交换机的二层互联,网络的二层扩展能力有限。
接入交换机间链路故障,VRRP心跳报文无法传递,整机做VRRP主备切换,故障收敛时间长;服务器网关指向汇聚交换上VRRP的VIP地址,但VRRP心跳报文的传输路径必须经过两台接入交换机,当两台接入层交换机之间的链路发生中断时,两台汇聚交换机都变为VRRP主设备,网络进入三层不稳定状态。
机架式服务器适用性分析:
网络接入不具备高可用性,且二层扩展能力有限,因此不建议在机架式服务器接入时采用这种组网。
刀片服务器适用性分析:
网络接入不具备高可用性,二层扩展能力有限,不建议在刀片服务器接入时采用这种组网。
倒U型组网:不建议使用机架服务器用,刀片服务器可用
方案优点:
不启用STP,好管理;网络接入层不存在二层环路,接入交换机不启用生成树协议,网络配置管理简单。
VLAN 可以跨汇聚层交换机,服务器部署灵活;服务器的接入VLAN可以跨汇聚交换机,因此能实现VLAN跨不同的接入层交换机,服务器可实现跨接入交换机的二层互联,服务器接入扩展性好。
接入交换机上行汇聚交换机采用捆绑链路,因此上行链路可靠性高,链路的带宽利用率高。
方案缺点:
当汇聚交换机与接入交换机之间的链路中断时,服务器不能感知这种故障,服务器上行流量仍然发送到出现故障的接入交换机,从而形成了“流量黑洞”。
机架式服务器适用性分析:
由于存在“流量黑洞”的问题,因此不建议在机架式服务器接入时采用这种组网。
刀片服务器适用性分析:
刀片交换机可通过上行捆绑链路的状态监测机制解决“流量黑洞”问题:刀片交换机在正常运行状态时,周期性的对上行汇聚层交换机的接口进行状态检查,当发现上行接口故障时,该刀片交换机将shutdown其上所有端口。此时,接入到该刀片交换机上的服务器将把流量切换到与另一个刀片交换机相连的网卡上,从而避免了“流量黑洞”。
这种方案配置管理简单,如刀片交换机具备防 “流量黑洞”的特性,则适用于刀片交换机的网络接入。
矩形组网:不建议使用
方案优点:
VLAN可以跨汇聚层交换机;服务器接入VLAN可以跨汇聚交换机,能实现VLAN跨不同的接入交换机,服务器可实现跨接入交换机的二层互联,服务器接入扩展性好。
双active链路,接入交换机密度高;接入交换机到汇聚交换机间有冗余链路,网络接入层具备高可用性。
方案缺点:
接入交换机上行链路故障,流量将从一侧的交换机上行,收敛比变小,网络易拥塞,降低网络高可用性;正常情况时,两台接入交换机之间的链路被生成树协议阻塞。当某台接入交换机上行链路故障时,交换机之间的链路变为转发状态。此时,发生故障的交换机一侧的所有服务器上行流量,将经过另一侧交换机上行到汇聚交换机,该交换机的上行收敛比增加一倍,导致网络发生拥塞,网络转发性能降低。
机架式服务器适用性分析:
服务器接入具备高可用性和高可扩展性。当一侧接入交换机发生故障时,另一侧交换机拥塞加重,网络转发性能降低,因此不建议在机架式服务器接入时采用这种组网。
刀片服务器适用性分析:
刀片交换机模块需要配置生成树协议,不利于刀片系统的管理维护。且同样存在一侧刀片交换机故障时,网络转发性能下降的问题,因此不建议在刀片服务器接入时采用这种组网。
三角形组网:机架服务器建议使用,刀片服务器不建议
方案优点:
链路冗余,路径冗余,故障收敛时间最短(接入交换机到汇聚交换机有冗余链路,接入网络具备高可用性,且通过MSTP可实现上行流量分担。)
VLAN 可以跨汇聚层交换机,服务器部署灵活(服务器接入VLAN可以跨汇聚交换机,能实现VLAN跨不同的接入交换机,服务器可实现跨接入交换机的二层互联,服务器接入扩展性好。)
方案缺点:
网络配置管理较复杂,为提高二层网络的高可用性与安全性,在接入交换机与汇聚交换机上使能“BPDU保护”、“环路保护”、“根保护”等特性;
机架式服务器适用性分析:
服务器接入网络具备高可用性、高可扩展性,建议在机架式服务器接入时采用这种组网。
刀片服务器适用性分析:
刀片交换机上的配置复杂,可管理性较差,不建议在刀片服务器接入时采用这种组网。
刀片服务器pass-through模块部署
刀片服务器内可集成刀片交换机,也可以通过部署pass-through模块,将服务器的网络接入延伸到刀箱外的网络上。
采用了pass-through模块的刀片服务器在网络接入层设计上与机架式服务器的关注点相同,重点是保证服务器的高可用接入以及服务器的接入可扩展性,因此建议采用具备接入高可用性和高可扩展性的“二层环路三角形组网”。
刀片服务器交换模块与直通模块的区别:
交换模块相当于一个交换机,只要有一根网线,里面所有刀片都可以通出来,是共用一对多的。
直通模块( pass-through模块)的作用是把每一个刀片的接口通到外面来,是一对一的。理解成一个集线器,没有任何其他网络功能。好处是管理简单。
转自 http://www.ruijie.com.cn/fa/cp-jh/11864
服务器机柜布线方式的差异
数据中心机房平面布局通常采用矩形结构,为了保证制冷效果,通常将 10 至 20 个机柜背靠背并排放置成一行,形成一对机柜组(又称为一个POD)
POD中的机柜都采用前后通风模式,冷空气从机柜前面板的吸入并从后部排出,由此在机柜背靠背摆放的POD中间形成 “热通道”,相邻的两个POD之间形成“冷通道”。热通道正对CRAC(机房空调),热空气沿热通道流回CRAC,再开始新一次循环。
如下图,每个POD由服务器机柜和网络机柜组成,其中服务器机柜占多数。由于服务器的形态差异(机架式服务器、刀片服务器),POD中服务器机柜和网络机柜的布线方式也存在差异。
机架式服务器的布线方式:交换机EOR(End of Row)布线方式
采用交换机EOR布线方式时,每个POD中的两排机柜的最边端摆放2个网络机柜,POD中所有的服务器机柜安装配线架,配线架上的铜缆延伸到POD最边端网络机柜,网络机柜中安装接入交换机。机架式服务器安装在服务器机柜中,服务器网卡通过跳线(铜缆)连接机柜中的配线架,如图所示。
交换机EOR布线方式特点:
交换机EOR布线方式最为常见。通常在服务器和接入交换机安装以前,服务器机柜到网络机柜的布线施工已经完成,设备(服务器/交换机)安装和跳线工作都在服务器机柜内和网络机柜内进行。
如果每台机架式服务器的功率为500W,且每个服务器机柜的电源输出功率按4KW或6KW计算,则一个42U高度的服务器机柜能安装8-12台机架式服务器。
EOR布线方式的缺点:从服务器机柜到网络机柜的铜缆多(约有20-40根铜缆),且距网络机柜越远的服务器机柜的铜缆,在机房中的布线距离越长,由此导致线缆管理维护工作量大、灵活性差。
交换机MOR(Middle of Row)布线是对EOR布线方式的改进。MOR方式的网络机柜部署在POD的两排机柜的中部,由此可以减少从服务器机柜到网络机柜的线缆距离,简化线缆管理维护工作。
机架式服务器的布线方式:交换机TOR(Top of Rack)布线方式(真正大型数据中心的部署方案)
交换机TOR布线方式是对EOR/MOR方式的扩展,采用TOR布线时,POD中每个服务器机柜的上端部署1-2台两台接入交换机,机架式服务器通过跳线接入到机柜内的交换机上,交换机上行端口通过铜缆或光线接入到EOR/MOR的网络机柜中的汇聚交换上。如图所示
TOR布线方式特点:
TOR布线方式简化了服务器机柜与网络机柜间的布线,从每个服务器机柜到EOR/MOR的网络机柜的光纤或铜缆数量较少(4-6根)。
机柜中服务器的密度高。对于标准的19英寸宽,42U高的机柜,如果采用交换机TOR布线方式,则每个机柜可部署15-30台1U高度的机架式服务器(具体数量需要考虑单台服务器的功耗和机柜的电源输出功率)。
TOR布线的缺点:每个服务器机柜受电源输出功率限制,可部署的服务器数量有限,由此导致机柜内交换机的接入端口利用率不足。在几个服务器机柜间共用1-2台接入交换机,可解决交换机端口利用率不足的问题,但这种方式增加了线缆管理工作量。
从网络设计考虑,TOR布线方式的每台接入交换机上的VLAN量不会很多,在网络规划的时候也要尽量避免使一个VLAN通过汇聚交换机跨多台接入交换机,因此采用TOR布线方式的网络拓扑中,每个VLAN的范围不会太大,包含的端口数量不会太多。但对于EOR布线方式来说,接入交换机的端口密度高,在网路最初设计时,就可能存在包含较多端口数的VLAN。
TOR方式的接入交换机数量多,EOR方式的接入交换机数量少,所以TOR方式的网络设备管理维护工作量大。
刀片服务器的布线方式
集成刀片交换机的刀片服务器在进行机柜安装时,不需要考虑机柜内从服务器到接入交换机/或配线架的跳线,只需考虑刀片交换机上行端口的配线方式即可。而机架式服务器则需要分别对每台服务器进行跳线连接。例如,一个42U的服务器机柜安装10台1RU机架式服务器,1台接入交换机,并采用TOR布线方式时,在机柜后面将看到22根电源线(服务器和交换机都配置冗余电源)、10根KVM线、至少30根双绞线(每台服务器两个业务网卡和一个管理网卡),2根光纤(交换机上行端口),这还不包括连接外部存储和其他设备的线缆,显的非常凌乱。而对于一台配置了10个服务器模块和2个交换机模块的刀片服务器来说,则只需2根电源线,1根KVM线,4根光纤。因此刀片服务器在机房布线管理上比机架式服务器具有明显的优势。
集成交换机模块的刀片服务器主要采用EOR/MOR布线方式,但这种EOR布线方式与机架式服务器TOR布线方式的特点基本相同,如图所示。服务器在服务器机柜内完成网络接入,从服务器机柜到EOR/MOR网络机柜的电缆主要是刀片交换机上行汇聚交换机的光线,而且数量比较少。但刀片服务器的计算单元的密度比机架式服务器更高,所以对单个机柜的电源输出功率以及机房制冷环境的要求也更高。
采用pass-through模块的刀片服务器的机柜布线方式可分为EOR/MOR和TOR两种,如图所示,两种方式的特点与机架式服务器的相应方式相同,此处不再赘述。
http://wholeton.com/wholeton/Newsview_258.html
POD数据中心设计的情况:一个POD由3个机柜单元构成,中间机柜容纳ToR(机架顶部)交换硬件,并为POD中的全部三个机柜提供本地接入层连接。万兆以太网光纤主干提供到网络的聚合层和核心层(通常在ZD或MD区中)的高速连接。POD内的每个服务器配有合并型网络接口卡(CNA),该接口卡通过万兆以太网(6A类)网络链路承载服务器的局域网和SAN流量。每个服务器的一个CNA与中间机柜中的交换机连接。
对于POD中的布线,可通过服务器和机架顶部交换机之间的低成本、低延迟和功耗10GBase-T铜缆布线支持单元内的输入/输出连接。
转自 http://www.wintoptec.com/2015/0616/268.html
交换机TOR布线方式是对EOR/MOR方式的扩展,采用TOR布线时,POD中每个服务器机柜的上端部署1-2台两台接入交换机,机架式服务器通过跳线接入到机柜内的交换机上,交换机上行端口通过铜缆或光线接入到EOR/MOR的网络机柜中的汇聚交换上。
看图识谷歌——谷歌数据中心图片浅析
近日,谷歌(Google)第一次允许媒体记者进入该公司位于世界各地的数据中心进行参观拍摄,向世人展示其迷宫一样的世界。这些数据中心日以继夜地处理着全球网民的搜索请求、Youtube视频和邮件等。虽然本次公布的只是一些图片和非常有限的视频资料,且没有详细注释说明,但如古老的谚语所述:一张图片胜过千言万语,今天我们将就这些有限的图片管中窥豹,分别从制冷、机柜、服务器、建筑等方面做一些最粗浅的分析以飨读者。
一、制冷篇
图1是谷歌某个数据中心的内部场景。从该图可以首先看出这个数据中心的冷站规模很大,整个房间管道林立,色彩斑斓非常好看。
图1 谷歌某数据中心内部场景
空调管道采用了谷歌企业标准色来区分不同管路的功能。例如,绿色标注的是冷却水回水管,黄色是冷却水供水管、蓝色是冷冻水供水管,深红色和冷机侧的粉红色管是冷冻水回水管,白色的是消防管路,从而便于运维人员快速定位并查找问题。IT设备同样也采用五种颜色的网线,加上不同数据中心不同主题的装修风格,都是数据中心颜色标识管理的典范。
图1的左侧是大型冷水机组,右侧是板式热交换器,以便在室外温度较低时候采用板换散热实现水侧节能(water-side economizer)。谷歌也非常重视数据中心的耗水问题,据他们估算,采用高效节能方式的数据中心每年可节约几亿加仑的饮用水。
从图1还可以看出,有一些运营层面的小细节也考虑得非常周全。例如,管路屋顶等地方采用了很多的电动吊装葫芦链条,方便重型设备的吊装维护或更换;又例如,管路底部采用了中间凹两边凸的滚轮型支撑,这样会减少管路振动和拉伸形变产生的物理应力;还有,楼层间的竖管采用了U型弯曲以便减少水温变化和建筑形变带来的隐形损伤;冷机周边地面也配备了应急排水口,等等。此外,在偌大的机房中,运营人员采用同样运用了谷歌标准色的自行车来进行现场巡视。
二、微模块机柜篇
图2为谷歌在美国俄克拉荷马州的数据中心,整个机房在大量服务器LED指示灯的闪烁下显得非常整洁和梦幻。
图2 谷歌俄克拉荷马州数据中心
从这个整机房的俯视图看,数据中心采用了厂房式大开间框架结构。封闭热通道的一排排机柜构成庞大微模块阵列,机房顶部是供电网络桥架和消防管路,服务器和交换机的状态灯闪烁着,只有极少量的机房级照明。
整个数据中心面积很大,走道以及顶部空间都非常宽敞,但设备区却较为紧凑。机柜间冷通道才两块砖多点的距离(标准砖宽度为600mm),其中热通道占用了大约两块砖的距离,而且服务器机柜的深度较短,也就一块砖多些。
从图2较近处还可以发现有些地方以蓝色布帘密封。这些密封的地方应该是空缺的位置,是留给服务器机柜的,这也说明了谷歌的服务器部署是以机架为单位快速安装部署的。用布帘密封可以隔绝冷热气流的混合,减少冷量的浪费,体现了精细化运营的思想。高密度的服务器采用全正面维护,顶部为密集的TOR交换机单元。
仔细观察图2还可以看出,谷歌采用了创新的空调置顶散热方式。整个机房大环境作为冷通道提供冷量给服务器吸入,加热后的热空气在封闭通道内上升,然后通过热通道顶部的空调盘管制冷,并被几个烟囱状导风管和大散热风扇重新循环回外部冷环境。这种空调置顶布局虽然存在着盘管漏水、更换维护较难等风险,并对产品质量和施工工艺要求非常高,但其气流组织较为合理。例如热气流自动上升,冷气流自动下沉,从而减少风扇的功耗,且机房大冷池环境可以作为缓冲池,减少局部空调故障引发的热保护。
据相关资料显示,谷歌微模块(图3)的整个热通道温度非常高,像个大烤箱,温度可以高达49摄氏度,以至于一旦必须进去维护,那么服务器必须关掉才行。采用热通道封闭可以提供一个较为舒适的现场运营环境,热量被限制在热通道中,并被冷冻水带走。虽然大开间铁皮厂房的冷量密封保温特性不太好,但因为谷歌服务器的高温工作特性(如图3所示谷歌服务器的深度较短,大约只有600mm多的深度,散热会比较容易),送风温度高达27摄氏度,因此这个较高温度下的冷量传递损失不会很大,围栏效应的影响几乎可以忽略。
图3 谷歌微模块内的热通道
图3显示了谷歌微模块热通道内部的一些细节。例如,热通道宽度大约是两块标准地板砖,里边安装的是机柜顶部空调盘管的安装支架和加固支撑,地板底下的快接软管提供冷冻水给热通道顶部的空调盘管。从冷冻水管的数量和密度上看,顶部空调盘管也做了模块化冗余设计,是个很不错的设计。服务器全正面维护,每台服务器采用三个分布式较大风扇散热,绿光来自服务器内部LED状态灯。根据整机房以及微模块内的照片,我们还可以猜测到,为匹配置顶空调。
谷歌的微模块是6个机柜为基本单元来建设,每排机柜以3个机柜为最小颗粒不断延伸。谷歌自行设计的服务器采用尽可能少的能耗,并控制风扇转速到足够低,只要服务器内部温度不要超过设定值就可以了,处处都体现节能。
谷歌在供电和制冷等方面总能打破常规。例如,他们有些机房没有采用商用的传统UPS和精密空调方案。图4则是谷歌创新的“三明治”服务器,谷歌还为此申请了专利。“三明治”服务器采用的是液冷散热片,上下两个服务器靠此散热片内部的冷冻水以及循环风扇带走热量。
图4 谷歌“三明治”服务器示意图
当然,也不是谷歌的所有机房都采用这些创新的散热方案,例如一些POD小机房(图5)和网络设备间(图6)就采用传统的散热方案。图6展示的网络设备间采用了传统的风管上送风或者地板下送风方式散热,双路冗余高可靠供电。不过,在这些传统机房模块中谷歌都采用了简单低成本的塑料帘子隔离冷热通道方案,避免了冷热气流直接混合短路,也大大提高了能源利用效率。
图5 谷歌一POD小机房
图6 谷歌某数据中心的网络设备间
从谷歌早期发布的一个POD机房优化视频中可以看出,通过一些精细化运营手段,例如机房CFD仿真改善气流组织、采用冷热帘隔离、提高送风温度、安装蓝色LED灯用于照明等措施,可以使数据中心PUE值从原来的2.4降低到1.5以下。这也说明即使不用费心创新,单纯采用运营优化也可以实现较好的节能效果。
三、谷歌服务器篇
步入谷歌的大型数据中心,整个机房的服务器阵列非常整齐壮观,海量的服务器风扇同时运转带来巨大的噪音,以至于进入数据中心必须佩戴防噪耳塞。
图7 谷歌数据中心的服务器阵列
从图8和图9可以看到谷歌的服务器上架有两种配置方式,分别是低密方式——每机柜约放置十五六台服务器,以及高密方式,每机柜接近三十台左右(可能采用类似Facebook的1.5U高效风扇设计)。
图8 低密度机柜
图9 高密度机柜
除开密度不一样,共同的地方则是都采用了TOR交换机置顶,PDU和网络快速接口都在左侧。每台服务器含有2个或者更多的子机,服务器没有前面板也无上盖板,这样不仅成本更低,散热也更好。而且服务器通常很短,采用不同颜色的网线做功能区分。网线和电源线采用快插接口,即插即用。机柜底下滚轮设计方便整机架快速部署和搬迁,全正面维护,方便现场快速维修和免工具更换。
透过这些照片,也可以看到不同版本不同类型的谷歌服务器设计。和早前发布的带铅酸电池服务器设计不一样,新版本的服务器结构更为方正美观。最关键的是,这些自行打造的服务器要比标准的商用服务器要便宜不少。
尽管仍被视为互联网公司,谷歌实际上已经成为世界上最大的硬件制造商之一,因为它的设备多数是自己制造的。
1999 年的时候,谷歌基础设施高级副总裁Urs H?lzle[zy1]从“三个开电子商店的家伙”那里买了 2000 个剥离下来的电路板。通过改造,去除不必要的部件,谷歌构建了自己的服务器。DIY服务器的价格是1500美元,而当时的商用机价格约为5000美元,考虑到其上百万量级的服务器设备,那么DIY服务器带来的成本节约会是天文数字。
谷歌DIY的服务器简单易维护。如果服务器出了故障,甚至可以免工具快速维修,实在无法维修则直接报废拆解成电子垃圾回收。并且,谷歌在定制的服务器内部安装了分布式的带电池UPS,可以省掉传统数据中心大量UPS的采购成本。而且该内置UPS可以实现供电效率99.9%,相比传统的UPS方案也实现数据中心总节能15%,这在能源紧张运营电费高涨的今天无疑是非常大的费用节省。
为了统一管理自己的服务器,谷歌开发了一个软件系统。数据中心管理者能够通过这个系统指挥数千个电脑,如同一个计算机一样。在 2002 年的时候,谷歌开发了谷歌 File System,可以在不同的机器上顺利地传送文件。MapReduce则是谷歌为编写云端服务而开发的系统,它的开源版本Hadoop已经成为业界标准。
此外,谷歌还开发了一个自动化的决策系统 Borg,用于决定哪个机器最适合某项任务。这对服务器集群的稳定性提出了更高的要求。为此,谷歌内部有一个团队,叫做 SRE(网站可靠性工程团队),他们的任务就是使用各种方法,对服务器进行破坏,以检测公司进行危机处理的能力。每年,SRE都会进行一次虚拟的战争,叫做DiRT(disaster recovery test)。攻击是虚假的,但是几乎和现实一样,危机管理人员必须按照处理程序来做,如果他们不能找出处理方式,攻击就必须停止,以免影响到真正的用户。
谷歌公司内部的某个墙上展示着一排排的主板,那些代表着谷歌成立以来自己打造的不同时代的服务器。其中有一块标明着2008年7月9日,那是谷歌有史以来的第一百万台服务器,但这是个累计的数字,并不意味着那个时间谷歌已经拥有百万台服务器的规模。
四、数据中心建筑篇
谷歌在数据中心选址上非常谨慎。以谷歌位于哥伦比亚河畔的Dalles数据中心(图11)为例,谷歌喜欢将数据中心建设在河流旁边开阔的谷地。而且,可以看出其典型的建筑风格是大开间低层厂房结构,多为结构较为合理的长条矩形状。大型架空冷却塔和底下的储冷罐位于建筑边上,附近是两个为数据中心配套的变配电站。直接采用附近水电站便宜的绿色充足水电来给数据中心供电,空气质量很好。
图12 谷歌Dalles数据中心平面布局图
类似选址的还有谷歌建于比利时的数据中心(采用运河的水处理后来散热),以及芬兰湾哈米纳数据中心(直接采用海水来给数据中心散热),而不像国内,许多大型数据中心受限于种种原因多建在沿海城市,忍受着空气质量不好、电力容量少电费高、多层建筑租金昂贵等多种弊端。
总之,谷歌的数据中心选址多位于能源较为丰富、气候条件较好的地方。一则可以大量使用绿色低成本的能源,二则还可以利用较为优越的地理气候条件实现更为节能的自然冷却。目前谷歌主流的数据中心年PUE值基本可以达到1.2以下的水平。且数据中心和周边自然环境融合很好,数据中心周围倘佯的小鹿、漫山的野花、氤氲的冷却塔蒸汽、静谧的河流以及雪地垂钓等,都体现了人与自然的和谐相处。
五、结语
谷歌非常注重自己的信息安全,例如谷歌会将使用过的硬盘全部销毁。就数据中心的创新技术而言,H?lzle说:“谷歌付出了鲜血、汗水和眼泪,也希望其他公司也能付出自己的艰辛来自己打造,成就更多的发现和伟大。”
虽然谷歌这次如此大规模地公开其数据中心的秘密,但谷歌所透露的都是通常一两代之前的技术。至于谷歌当前的技术究竟发展到什么水平?我们还不得而知,但谷歌自己说过,一旦他们自己的员工看过了谷歌正在打造的2013年下一代数据中心和服务器集群,那么他们将无比抱怨目前的这些设计。
即便如此,本次披露的这些数据中心也像是一件件精美的艺术品,使用的技术也都是业界非常领先的技术。我们在拭目以待谷歌更多更新数据中心技术的同时,应该从这些资料中学习并理会其思想,以同样孜孜不倦的创新精神去实现构建完美的数据中心。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· go语言实现终端里的倒计时
· 如何编写易于单元测试的代码
· 10年+ .NET Coder 心语,封装的思维:从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热?
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· 周边上新:园子的第一款马克杯温暖上架
· 分享 3 个 .NET 开源的文件压缩处理库,助力快速实现文件压缩解压功能!
· Ollama——大语言模型本地部署的极速利器
· DeepSeek如何颠覆传统软件测试?测试工程师会被淘汰吗?
· 使用C#创建一个MCP客户端