视频采访剪辑:微软研发团队的私有云应用之道 (一)
不久前,我们中国团队的研发工程实验室经理刘擎先生接受了CSDN云计算频道负责人谭茂先生的视频采访,在CSDN的帮助下,我们选取了11个视频片段和相关的文字速记与大家在此分享。
1. 微软私有云环境介绍
原视频地址:http://v.csdn.hudong.com/s/article.html?arcid=302328
谭茂:各位网友大家好,今天我非常高兴请到了微软亚太研发集团,服务器与开发工具事业部研发工程实验室的经理刘擎先生,他主要负责STB 中国团队内部私有云。我们知道业界其实大家对于云计算这块也是关注了很久,那么微软的云计算也是大家,包括很多客户所关心的一些东西。
首先想请刘先生,您能简单介绍一下,您在上海的一些主要工作。
刘擎:大家好,我在上海,在2007年加入STB中国团队。负责服务器与工具开发事业部在上海的研发工程实验室管理。主要负责向微软的开发、测试和产品经营的团队提供实验室服务。其中包括Test和Build,就是产品构建,还有产品的性能,产品设计。
我们在上海实验室主要的工作包括管理一个1,500多台服务器的实验室,同时在上面我们从2007年开始去构建微软一个私有云。那么这个私有云会基于微软的平台,就是System Center的产品,其中包括有微软虚拟化服务管理系统,然后有服务器管理,还有管理客户端,包括微软的数据库管理,这四块帮助我们管理整个微软在上海1,500多台服务器。
下面我们会用到微软的Opalis,这是一个微软的IT流程自动化的管理工具。
谭茂:您刚才也是介绍了对微软整个实验室的介绍,我们还想了解一下更细节一点的,它现在有没有一个比较明确的一些数字?
刘擎:在我们上海的话,我们会把上海实验室其中有1,500台服务器中,有400台是性能比较不错的服务器,构建了一个私有云,这个会有412台物理机器,同时运行5,000多台虚拟机,这样一个能力,400台到5,000台。其中这5,000台基本总有3,000多台是处于激活的状态。在整个管理平台上,我们把团队的资源就是按照分组的方式,大概有超过13到15个产品组,我们会把他们分配到不同的组里面,每个用户会在自己的组里面分配他的虚拟机资源。
2. 微软私有云的创新
原视频地址:http://v.csdn.hudong.com/s/article.html?arcid=302329
谭茂:和传统的数据中心相比的话,你觉得微软目前的私有云最大的一个区别或者说有创意的地方在哪?
刘擎:对我们来说,最大的一个优势在于微软平台和Windows兼容性非常好,我们用了Hyper-V,它实际上是基于微软的虚拟化平台的一个管理工具,它对我们的第一个优势就是说它兼容性好。其次就是说它可以很方便地把我们对数据中心,对服务器的管理,变成了一个对资源的管理。我觉得这是一个很大的云对我们的优势。因为讲云的话,最能够体现出云的优势就是自服务,资源化,这两块就是说能够通过这个软件,完全是看到了物理器这一块,对用户来说,他是看到了资源,而不是一台一台服务器。
在我们的内部设置的一个用户的自主网站,他可以很清楚看到,他有多少CPU,有多少虚拟机,有多少内存可用。对于他计划他能用的预算,他就可以有一个很好的安排,我现在资源可能是40%,明年他就不要升级。如果说他90%,他明年就要升级。
同时对我来说,团队之间的调度。其实在云里面,刚才我讲了资源池。
还有一块就是资源利用率的最大化,原先的话,每个团队把自己的资源放在一个实验室里面,相互之间没有一个很好的共享平台,在有了这个虚拟化管理,他可以很容易地去共享团队资源。就类似这个项目A,他有自己忙的时候,繁忙阶段。在另外一个团队繁忙,他没有更多的机器的时候,他除了购买新的机器的时候。现在有个选择,可以从别的团队调一部分资源过来,因为所有的机器都是虚拟化的话,他不会相互干扰。
第二个,他可以很容易地把他的虚拟机迁移到他的服务器上做负载,这样的话,就变成完全像用电一样,在以前我小时候有电的调度,我父母单位里面会有调电这种说法,就说周三他必须要休息,因为他工业用电调给民用电去使用。现在我们在一个微软团队内部,就可以实现这种调度,很容易把物理机的资源从这个团队调到另外一个团队,就是要鼠标移动一下就行了。
谭茂:这个硬件利用现在有一个没有新的?
刘擎:我们从2007、2008、2009年就慢慢在做,首先我们机器的利用率是一步一步在往上提高。当初我们在看的时候,可能和业界的标准比较像,从12%到14%-15%的利用率。现在的话,我们基本上把这翻了八倍,到今年我们2011年5月份,数字已经到八倍。可以看到每台机器可以跑八倍。这是一个平均值。
谭茂:我们注意到业界,国内目前来说还没有特别成熟的私有云案例,很多也是处于这种创新跟市场研发,从您的技术角度来讲的话,您觉得这种研发到应用,就是生产率这一块目前主要的瓶颈是在哪方面会比较多?
刘擎:其实我是这样看这个问题的。那么当我接受这份工作,我在看我们团队,实际上我就在一个研究问题,微软研发团队它的工作的瓶颈在什么地方,什么问题需要去解决的。其实从去年接手工作,花半年时间在调研内部的流程,资源,内部的工程师的工作习惯,内部工程师在使用这个系统的时候,会有哪些地方是好的,哪些地方是不好的。我们在设计这个虚拟云的时候,目标就是解决最优先的三个问题。实际上我觉得比较理想一个方案去解决一些业界问题,就是说你先理解你现在的企业,你现在碰到什么样的问题,哪些是需要最先解决的问题。
我们当初其实谈到了,一个是说团队之间的资源的共享。然后团队与团队之间有很多的重复劳动,因为微软软件开发它不同的项目实际上是有挺多的情况,他会做相同的工作。举一个简单的例子,他们在做测试的时候,是要先把Windows部署到一个环境中,然后构建一个网络环境,跑没有发布的产品。实际上建立这个Windows环境,构建一个网络环境,其实不同的团队都要做相同的事情,所以原先的做法,就说每个团队有自己一套自动化、脚本,团队A写了一遍,团队B写了一遍,团队C也写了一遍。这是一个问题。
第二个问题,我们看到在我们问题表里边,就是说工程师对于部署完所花的时间非常有意见,因为你部署完这个东西,比如Windows装完至少要20分钟,再安装所有的最新的补丁至少要40分钟,这样的话,整套完成时间至少要一个小时。如果说物理机在做这个测试的时候,你如果做一个AD,通过服务器,没有两个半小时是完不成的。一天八个小时,你准备一套花两个半小时,就是你一天最多只能做四套。现在我们虚拟化技术可以并行去做,我们可以看到每一个虚拟器,从开始部署到结束只需要20分钟左右时间。你从两个半小时缩减到30分钟,那这样的话,他至少可以做八倍的事情。这是一个提升。这就是我们去评估我们私有云怎么去提高生产利用率这块。而且可以并行的。
谭茂:这在过去也是不可想象,从生产效率而言,应该是大大提高。
刘擎:对。