容错计算机设计(Design of Fault Tolerance Computers)课程笔记
根据听课情况,记录的哈尔滨工业大学刘宏伟教授容错计算机设计(Design of Fault Tolerance Computers)课程笔记,国内少有的容错计算课程资料。
容错计算机设计概述
快速介绍
容错
容错计算机是一种变相特殊应用的机器,它并不是一种新的类型的机器。它是面向特殊应用的,比如说机载机、弹载机、武器系统上计算机、星载计算机等。这些系统当中,如果计算机系统一旦发生失效,引发的后果比较严重。容错,并不是容易出错,而是故障容忍(Fault Tolerance)。这种类型的机器,即使系统当中出现了故障,机器也不会发生失效,对外的输出这部分不会有错误的输出。
主讲人
刘宏伟教授主要的研究方向是体系结构和容错计算,中国计算机协会体系结构专委会常委,容错专业委员会专委,研究可信计算、容错计算、软件可靠性评估。
教材
这门课没有现成的教材,所有的资料,一个是我们自己的研究积累,另外是从网络上查的一些论文,或者是国外一些教授的讲稿。
主要内容
这门课程,28个学时。主要是让大家了解容错计算。了解大家现在在做什么?过去都做了什么?它的基本基本方法是什么?另外,容错领域原来比较窄,只是关注系统的可靠性。现在领域的扩展会非常大,除了可靠性之外,可用性、可维护性、可测试性、系统的健壮性等等都已经包含在了领域当中。了解容错计算当前的研究趋势、领域的扩展情况。
推荐阅读材料
国际会议:Proceedings of International Conference on Dependable Systems and Networks(DSN)
容错计算领域国际顶级会议
截至2011年,哈工大未能在DSN会议主论文集发表论文。
国际期刊:IEEE Transactions on Dependable and Secure Computing
可信计算和安全的专业期刊,3个月一期。
国际期刊:IEEE Transactions on Reliability
可靠性的专业期刊,在上一国际期刊出现前,该期刊为主要期刊。
截至2011年,哈工大未能在该期刊发表论文。
国际期刊:IEEE Transactions on Software Engineering
软件工程的期刊,容错与软件工程是有关系的。
国内会议:全国容错计算学术会议(CCF CFTC)
两年一次,奇数年开。每次会后出版会议论文集,是国内容错领域的重要会议。
国际会议:IEEE Pacific Rim International Symposium on Dependable Computing(环太平洋可信会)
重要程度不及DSN。
书籍:《容错计算技术与Stratus计算机》,杨孝宗编著
1995年成书,作者是主讲人刘宏伟的老师。书中的基本原理讲述清楚,十分适用于入门。
书籍:M.L. Shooman,Reliability of Computer Systems and Networks: Fault Tolerance Analysis, and Design,Wiley,2002
通俗易懂的容错计算教材。
书籍:D.P. Siewiorek and R.S. Swarz,Reliable Computer Systems: Design and Evaluation,A.K. Peters,1998
卡耐基梅隆大学编著。作者是美国工程院院士,IEEE容错计算技术委员会主席,是容错计算领域的重要人物。
该书2006年出版了新版,但价格十分昂贵。
书籍:Michael R. Lyu,Handbook of Software Reliability Engineering,IEEE Computer Society Press and McGrawHill Book Company