01、可靠性介绍

可靠性介绍

定义

可靠性是降低网络中断时间、保证网络中业务质量,提升用户体验的一项技术。

随着网络的快速普及和应用的日益深入,各种增值业务(如IPTV、视频会议等)得到了广泛部署,网络中断可能影响大量业务、造成重大损失。因此,作为业务承载主体的基础网络,其可靠性日益成为受关注的焦点。

在实际网络中,总避免不了各种非技术因素造成的网络故障和服务中断。因此,提高系统容错能力、提高故障恢复速度、降低故障对业务的影响,是提高系统可靠性的有效途径。

可靠性度量指标

可靠性度量指标包括:MTTR、MTBF和可用度。

通常使用平均修复时间MTTR(Mean Time to Repair)和平均故障间隔时间MTBF(Mean Time Between Failure)这两个指标来评价产品或系统的可靠性。

  • MTTR(Mean Time to Repair):平均修复时间,从可维护性方面标识故障的恢复能力。指一个组件或设备从故障到恢复正常所需的平均时间,实质上指的是设备的容错能力。广义的MTTR涉及备件管理、客户服务等,是设备维护的一项重要指标。

    以下为MTTR的计算公式:

    MTTR=故障检测时间+单板更换时间+系统初始化时间+链路恢复时间+路由覆盖时间+转发恢复时间

    上述各项的值越小,平均修复时间MTTR也就越小,设备的可用性也就越高。

  • MTBF(Mean Time Between Failure):平均故障间隔时间,从可靠性方面标识故障发生的频率。指一个组件或设备的无故障运行平均时间,通常以小时为单位。
  • 可用度:可用度标识系统的出勤率,增大MTBF和减少MTTR,都可以提高设备的可用性。

    以下为可用度的计算公式:

    可用度=MTBF/(MTBF+MTTR)

    在电信行业,99.999%的可用度意味着设备因故障导致的业务中断时间平均每年不得超过5分钟。

    在实际网络中,总是避免不了各种因素造成网络故障和服务中断。基于这个事实,能够让设备从故障中快速恢复的技术非常重要,即缩小MTTR一样可以达到要可用性的目的。

可靠性需求级别

可靠性需求的级别不同,其目标和实现方法就不同。

可靠性需求的3个级别、目标和实现方法如表1所示:

表1 可靠性需求

级别

目标

实现方法

1

系统软件和硬件的故障较少

  • 硬件:简化设计、电路规范、器件可靠应用、外购件可靠性控制、生产工艺可靠性、环境适应性、高加速寿命试验(Highly Accelerated Life Testing-HALT)、加速应力试验源由(Highly Accelerated Stress Screen-HASS)等。

  • 软件:软件可靠性设计规范

2

即使发生故障,系统功能不受影响

冗余设计、倒换策略、提高倒换成功率

3

系统故障导致功能受损,但能够快速恢复

故障检测、诊断、隔离和恢复

高可靠IP网络组网原则

组网原则包括:分层组网、冗余技术和负载分担技术。

可靠性组网原则如下:

  • 分层组网:将网络分为核心层,汇聚层,边缘层。根据业务现状或业务预测,接入边缘层接入节点时采用冗余备份设置,分别与汇聚节点相连。汇聚层设备双归到上层单点多设备或多点。汇聚层与核心层设备可以视情况合理设置。核心层设备采用全互连或半互连,大流量两点一条可达,避免使用多极互连。

  • 同层内尽量多互连,单点考虑多设备。

  • 下层双归或是多归到上层多个设备的单点上或是多点上。

  • 局部根据业务流量情况适当调整。

posted @ 2024-04-15 17:08  博雅塔之客  阅读(22)  评论(0编辑  收藏  举报