视频采访剪辑:微软研发团队的私有云应用之道 (二)
3. 物理服务器增加而维护人员并未增加
原视频地址:http://v.csdn.hudong.com/s/article.html?arcid=302330
谭茂:背后的话,这1,500台服务器,加上上边的几千个虚拟机,维护人员是什么样的变化?
刘擎:维护人员我们其实没有人数的变化,最早的时候,其实是三位在上海,北京这边业务还没开始,事实上从09年开始在北京增加了新的团队,我们增加了1位工程师在北京。那么人数的增加,从服务器相当于增长了2.5倍,人数没有增加。
谭茂:像这1,500台服务器,按照业界标准它大概需要多少人管理?
刘擎:这个各个地方都不太一样,我举个美国的微软内部的一个指标。我们其实还没有达到微软内部的指标,微软内部的指标是数据中心是1,000台服务器配备一位工程师。这是微软数据中心的标准。
4. 传统物理服务器如何无缝迁移
原视频地址:http://v.csdn.hudong.com/s/article.html?arcid=302331
谭茂:还想回到技术这一块来聊,其实我们也想了解,包括现在很多客户他们也想去建私有云,但他们比较为难的一点,就说他们做传统的物理的服务器怎么去无缝的迁移到私有云上,这块你们有没有一些经验?
刘擎:这块其实我们和传统的工业碰到相同的问题,在我们做迁移的时候,我们第一步想解决的问题,就是你刚才提到的问题,就是我们怎么把现有应用往虚拟化去迁。在微软的System Center产品里面,就设置了一个P2V功能,就是指从是为了把一些早期的服务和应用,从物理机迁移到虚拟机时,通过这个功能话,基本上在10到20分钟左右,就可以把一个运行在硬件层面上的Windows、Linux以及应用,转到虚拟机当中。可以保留所有的设置,可以保留所有的团队关系,所有的应用的设置,包括存储、数据库。
其实当初我们还用了一个方法,就是说在我们把物理机的资源迁到虚拟机以后,我们把物理机重新安装,就是我们把它叫做Reprepare,重新放回到资源库来,让它变成虚拟化可用的资源。原来它干一件事情,现在它干三件事情。这样的话,我们就可以最大化。
谭茂:还有一点,其实我们知道在云里边是用了微软相当多的微软的一些技术,一些产品在里面,其实过去的数据中心都会有些管理工具,一些程序,将来这种,特别是基于平台的这种服务器,管理可能是个大的麻烦。微软在管理中,因为微软自己也有本身的产品。这块?
刘擎:这个其实也是我们全体工程师,就说一步步走过来说碰到的最多问题。我们最开始在看,我们各家厂商的意见,有惠普、戴尔、联想、浪潮的服务器,每家有自己的管理工具,像惠普有Insight manager和Dell 的OpenManage,同时我们还要管理实验室的交换机和存储。这时候就像你刚刚提到的,我们怎么去管理这么多的系统,我们看了挺多的开源管理工具和商用管理工具。最后我们看下来,还是使用微软的System Center最方便。
我们可以和思科的设备,我们可以和戴尔的OpenManage,可以和惠普的Ingisht Manager,可以和联想的管理工具,可以全部整合在一起,我们通过一个平台看到思科的交换机里面的CPU的负载是什么情况,可以看到戴尔服务器的功耗,风扇的速度、CPU内存,可以在一个平台可以看到所有的信息。并且每个设备的健康状态,都会通过email实时地反馈,我们可以在第一时间主动的去做相应的行动。
谭茂:像这种管理,它是通过跟思科标准,开发的人员自己是根据这个接口去做的?
刘擎:这个没有,因为所有的厂商都遵循共同标准,比方说思科是遵循SNMP网络管理标准,戴尔有自己专门设计的符合微软COM标准的套件。那你把这些套件,这是一个自由下载的软件包,实际上是描述它的硬件。它们都是免费下载的。通过这些,就可以监控这些服务器,一直到硬件这个层面。包括比方说内存的插槽出现了错误,硬盘可能马上要损坏,第几个硬盘,第几个内存,都可以把这些进行实时报告。
5. 微软虚拟化的安全和性能
原视频地址:http://v.csdn.hudong.com/s/article.html?arcid=302332
谭茂:其实虚拟化,可能大家现在不容易接受,他们仍然对他们的一些安全是有质疑的,在虚拟化的安全?
刘擎:的确很多用户除了在安全化虚拟上有很多的疑问,我们包括实际测试,还有微软内部,其实微软的虚拟化它的产品目标,因为我们设计每个产品都有产品的目标,比如这个产品要解决什么样的问题。所以我们会从我们产品设计的目标和我们实现的目标,我们可以看到基本上在98%的转化效率以上,这样的话,基本可以说做到了1:1这样一个转化效率,你可以理解成一个虚拟机它的性能和实体机是完全一致的,在CPU转换上。内存就肯定原来就是那么多,而在磁盘效率上它是根据运行虚拟机,你只要达到I/O的最大值,就是安全的。刚才你提到安全这一块,实际上这个和业界的虚拟化上,实际上有些标准,你怎么去做虚拟机的分块。
谭茂:98%的转化效率,是基于Windows平台之上?
刘擎:实际上所有的东西,它CPU转换效率,下面在执行的时候,不管是Windows还是Linux。它实际作为一个假的CPU,所以虚拟化有一个假的CPU,你的那个虚拟机是在这个假的CPU上。转换效率是把那个虚拟机pass掉。
谭茂:现在整个系统,你们也在做一些调优,优化?
刘擎:我们日常工作中,第一个是不停的往里加新的机器,因为我们有很多项目会进来,同时我们会把一些资源做淘汰。实际上我们日常的管理工作就是在这个平台上维护。
还有一块,就是我们在这个平台的自服务门户上加新的东西,我们在做比方说我一级的管理,我这个管理在上海,但我们现在已经有一些美国的,北京的一些数据中心的服务器加到上海这边来。这样的话,我就可以一个平台上管理微软本身。因为我们这个项目的要求,异地同时工作,但至少他需要两个人工作在同一个平台上,我们就需要把它整合到一起。
谭茂:另外还有一个我们比较关心的是在这种战略当中,因为基于虚拟化的自动化,管理服务化,这是虚拟化最核心的工作。其实这块的话,您也谈到一点,微软也做了很多工作在自动化管理这一块,具体谈一下。
刘擎:虚拟化实际上在真正的对生产力提供影响,让虚拟化技术,让这个云技术变得像电、水这样更方便的使用,你肯定得需要一些配套设施,比如你必须有大楼的强弱电布线,然后才能够送到用户。实际上虚拟化技术把计算能力也是以这种形式出现的,首先你看我们工程师需要什么,他需要几个虚拟机,我们怎么能更快地通过服务门库这样一个简单的方式,然后选择。在我们的库里面提前准备好几千个虚拟机的模板,用户需要的话,就是根据他的选择,就像点菜一样,是要一个中式的,西式的,湘菜还是粤菜,他测试中需要选择什么,我们把这些都准备好,这就是料。他可以直接去选择,需要通过我们自动化的机制,那么他选择他的那个菜,直接就可以变成他要用的东西。
所以我们会为用户去选拔,虚拟化技术,自动化整合在一起,为内部客户们服务。
谭茂:目前你们通过什么来实现的?
刘擎:通过VMM的SDK,它会有一个基于Power shell的自动化脚本。我们首先会理解用户需求,他可能会需要三个机器,我们把这个共同需求抽象出来,因为我们和很多团队谈,他们有一些共同的需求,把这些共同需求抽象出来,我们作为一个服务包,然后这下面是通过VMM的自动化脚本,可以把很多东西都自动化。这样的话,用户用起来就不需要重复自动化的工作,这也解决了我之前所提到的一个问题,就是团队和团队之间会重复。我们现在把这个重复全部抽象起来,变成一个层次的东西,我们把它叫Virtualization Infrastructure Layer。原先自动化是基于硬件的,我们现在变成虚拟化以后,其实自动化还是需要做,但是我们把这些写了一个抽象的描述,用户就不需要再使用重复劳动这一层,对他来说就是他想要的,并且我们做了更多的工作,结合了一些自动化脚本。
他原先的自动化脚本,我们做了一个类似于脚本库的概念,就是说把他脚本库里面,关于SQ server,关于Office,就直接调到那个地方。这样的话,可以想像一下,需要一个测试环境,首先你要需要两个CPU多少内存,然后需要几个Windows,再需要这个Windows是变成AD,那个Windows变成Exchange,你把这些选好之后,点一下,后面我们自动化会把虚拟机准备好,然后调用你所选择好的。实际上脚本是我们库里的。这样的话,完全自动化,用户就聚焦在他自己的专业领域上。