Cloud Service Reliability: Modeling and Analysis

文章名：Cloud Service Reliability: Modeling and Analysis

作者：Y.S Dai， Bo Yang，Jack Dongarra，Gewei Zhang

主要作者简介：(摘自海归论坛）

Y.S Dai(戴元顺) :1978年4月出生。1996年9月-2000年7月，清华大学自动化系本科；2000年8月-2003年9月，新加坡国立大学博士；2004年7月-2007年5月，美国普渡大学（PurdueUniversity）AssistantProfessor；2007年6月至今，美国田纳西大学（UnivofTennessee，Knoxville）AssistantProfessor。2005年7月-2007年5月，美国TEGO电子信任和网格安全实验室，Director；2007年9月至今，美国InnovativeComputingLab，ResearchProfessor。

近五年来，戴博士的5部专著分别由Springer、WorldScientific和IEEE等出版，60余篇国际论文发表在诸如IEEETransactionsonComputers，IEEETransactionsonSoftwareEngineering等国际学术期刊以及INFOCOM和ICPADS等计算机领域的重要学术会议上。其中国际期刊论文32篇,Transactions会刊论文12篇，SCI收录27篇，EI收录30篇，SCI他引46次。获得ICPADS2005年最佳论文奖和期刊《IIETransactions》2004年最佳精选论文。现担任《IEEETransactionsonReliability》副主编(AssociateEditor),以及4个国际期刊编辑或编委。并应邀担任多个国际大型学术会议的总主席(GeneralChair)和评审及策划主席(ProgramChair)等职务,如ICPADS'08，PRDC'06以及DASC'05'06'07等。还应邀在IEEE专家组TechnicalCommitteeonScalableComputing负责牵头“自主大规模计算”的研究技术领域（TechnicalArea）。

Bo Yang（杨波)：分别于1995年、1998年于西安交通大学工业自动化系获得工学学士、工学硕士学位。2002年7月于新加坡国立大学工业与系统工程系（Department of Industrial and SystemsEngineering, National University of Singapore）获得博士学位。2001年3月－2002年9月在Singapore Technologies Aerospace Ltd.全职工作，任软件过程工程师（Software ProcessEngineer），负责公司软件开发过程改进与CMM认证工作。2002年9月－2003年10月在新加坡国立大学计算机科学系（Departmentof Computer Science, National University of Singapore）从事博士后研究。2003年11回国，任教于电子科技大学至今。发表论文40余篇，其中SCI收录11篇，EI收录7篇（SCI收录不重复计）、ISTP收录6篇。

Jack Dongarra： Bachelor of Science in Mathematics from Chicago State University in 1972 and a Master of Science in Computer Science from the Illinois Institute of Technology in 1973. He received his Ph.D. in Applied Mathematics from the University of New Mexico in 1980. He worked at the Argonne National Laboratory until 1989, becoming a senior scientist. He now holds an appointment as University Distinguished Professor of Computer Science in the Computer Science Department at the University of Tennessee and holds the title of Distinguished Research Staff in the Computer Science and Mathematics Division at Oak Ridge National Laboratory (ORNL), Turing Fellow at Manchester University, and an Adjunct Professor in the Computer Science Department at Rice University. He is the director of the Innovative Computing Laboratory at the University of Tennessee.

Gewei Zhang: 不知道是不是南航的，没有搜索到关键信息。

论文介绍：

这篇文章应该是一个前期的工作，预计经过进一步的修改和补充，以后也可能出现在Trans.上，毕竟作者在可靠性建模方面已经有过很好的成绩，而且云计算现在又非常热。

这篇文章首先指出了云计算是网格计算、效用计算、透明计算模式的一种自然过渡，偏重于服务共享而不是资源共享，由于云计算环境的一些特性（如服务大范围的共享、硬件软件或网络的异构性等）使得云计算服务的可靠性是一个重要的研究课题，以往传统的单一可靠性模型不能应用于云服务的可靠性建模中。因此，本文主要考虑针对导致云服务出错的一些影响因素，如何评估服务的可靠性。没有介绍什么相关的研究工作，只用一两句话说明传统的可靠性模型针对的问题比较单一，所以不适用。

作者将出错因素归纳成8种，进而划分到两个阶段，即云服务请求阶段和云服务执行阶段。然后将整个服务的可靠性建模转化为对两个阶段的可靠性建模问题。

针对云服务请求阶段，采用Markov model求出错误因素overflow不出现的概率，进而求得timeout不出现的概率，结合得到请求阶段的可靠性（概率）。这部分比较容易理解。

针对执行阶段，这部分应该是论文的主要部分，文中分为三个部分来解释。

第一部分，作者给出了一个新的整合了执行阶段各种出错因素的图模型。之所以新，是因为这个图模型在考虑硬件失效时，引入了虚拟结点的概念，这不同于以往在分布式计算中仅考虑物理硬件出错，不能很好的体现结点内部软件/数据的异构性。将驻留在物理结点中的软件和数据库抽取出来，而不是单一的用一个结点的特征综合表示，划分更加清楚。

第二部分，针对硬件、数据库、软件、链路四种出错因素，作者将它们建模成一种以时间为参数的指数分布。不难理解。

第三部分，新的可靠性评估算法。由于传统的算法会有下面的假设：（1）网络拓扑结构是由物理硬件和链路构成的，不考虑虚拟结点（2）结点和链路的可靠性（概率）是常数。（其实应该是第二部分的指数分布）（3）不考虑软件、数据库失败，只考虑物理链路和处理机出错。因而，以往的可靠性评估算法不能应用到云服务的可靠性评估之上。第三部分应该是本文的一个核心内容，因而占据的篇幅也比较大。

在该评估算法中，有几个术语需要明白，要不很难明白本文的思想。

SST（子任务生成树）：最小子任务生成树是由完成一个特定的子任务的所有结点和链路构成的。而一个子任务生成树可以划分为几个MSST（最小子任务生成树）,MSST是指能成功完成一个子任务的最小的结点和链路的组合。根据第二部分的内容，就可以得到一个MSST的可靠性。当然计算Reliability(MSST)的核心在于求得每个元素的执行时间参数。

MEST（最小执行时间生成树）表示成功完成整个服务的最小的元素（结点和链路）组合。如果已经通过图遍历算法求得了所有子任务的MSST集合，那么如果每个子任务的MSST集合中有一个能成功，那么这个子任务就可以成功执行；而一个云服务包含了M了子任务，当然MEST必须保证M个子任务的MSST集合中至少有一个能成功执行；

在得到N个MEST之后，只要有一个MEST成功，那么执行阶段就是可靠的；因此执行阶段的可靠性就是N个MEST并的概率；随后，采用贝叶斯条件概率公式可以求得执行阶段的可靠性；

综合两个阶段，得到整个云服务的可靠性；

整篇文章最复杂的就是这个评估算法，大概意思知道！而且这个算法是建立在文中提到的一个用工作流描述云服务这一技术至上的。这参考了liudong xing的一篇文章，我下载了这位女博士的文章，还没去读。等些时候再说。

posted on 2010-06-30 16:53 sunny_ck 阅读(504) 评论(0) 编辑收藏举报