计算机的容错技术

容错是指计算机系统在运行过程中发生一定的硬件故障或软件错误时仍能保持正常工作而不影响正确结果的一种性能或措施。具有容错能力的计算机称为容错计算机。容错采用冗余方法来消除故障影响。

 

提高计算机可靠性的技术可以分为避错技术和容错技术。后者主要运用冗余技术来抵消由于故障所引起的影响。冗余技术是计算机容错技术的基础,一般可分为下列几种类型。
硬件冗余:以检测或屏蔽故障为目的而增加一定硬件设备的方法。

软件冗余:为了检测或屏蔽软件中的差错而增加一些在正常运行时所不

需要的软件方法。

信息冗余:在实现正常功能所需要的信息外,再添加一些信息,以保证运行结果正确性的方法。纠错码就是信息冗余的例子。

时间冗余:使用附加一定时间的方法来完成系统功能。这些附加的时间主要用在故障检测、复执或故障屏蔽上。

 

在20世纪60年代主要利用双处理机或双机的方法来达到容错的目的。例如把关键的元件(处理机、存储器等)或整个计算机设置两套:一份是系统运行时使用,另一份用做备份。根据系统的工作情况又可分为:热备份和冷备份两种。

 

① 热备份(双重系统):两套系统同时同步运行,当联机子系统检测到错误时,退出服务进行检修,而由热备份子系统接替工作。

 

② 冷备份(双工系统):处于冷备份的子系统平时停机或者运行与联机系统无关的运算,当联机子系统产生故障时,人工或自动进行切换,使冷备份系统成为联机系统。在冷备份时,不能保证从程序断点处精确地连续工作,因为备份机不能取得原来的机器上运行的全部数据。 

 

20世纪70年代中期出现了软件和硬件结构的容错方法。该方法在操作系统的层次上,支持联机维修,即故障部分退出运行后、进行维修并重新投入运行都不影响正在运行的应用程序。该结构特点是系统内包括双处理器、双存储器、双输入输出控制器、不间断工作的电源以及与之适应的操作系统等。因此上述硬件的任一部分发生故障都不会影响系统的继续工作。系统容错是在操作系统控制下进行的,在每个处理机上都保持了反映所有系统资源状态的表格以及本机和它机的工作进程。 
posted @ 2012-04-23 09:24  乌冬  阅读(1096)  评论(0编辑  收藏  举报