smaartctl测试笔记
1.Total uncorrected errors:判断条件与SATA盘的Current_Pending_Sector类似。
2.Non-medium error count(非媒介错误计数)计数:字面意思此错误好像与硬盘介质无关,但实际使用时有过案例,故障机器该计数器累加到千万级别,硬盘性能非常差。所以线上对Non-medium error count计数器到100万以上,且有性能问题的硬盘做报警会做进一步处理。由于硬盘接口也是链路的一部分,不能完全将硬盘排除掉,所以此Non-medium error count指标也应算作判断磁盘健康状况的指标之一。
(05)(Reallocated Sectors Count)
是非常重要的一项,称为重新映射扇区计数,它直接表示硬盘是否已经出现了不良扇区。
以前的硬盘只要某磁道出现一个坏扇区,该磁道就算“坏磁道(Bad Track)”,修复时就整个磁道所有扇区一起“跳过(skipped)”。所以,坏磁道和坏扇区没有区别开,一起称为“坏道”。而现在的硬盘每个磁道划为数百上千个扇区,不能因为有一个坏扇区就丢掉整个磁道。再说硬盘在制造完成后本身就已有相当多的不良扇区(可能有成百上千之多),所以为了提高成品率,硬盘的设计容量是大于标称容量的,多余的那部分(用户不可见的)容量就是用来弥补“制造时已出现的”以及“以后使用时新增的”不良扇区的。这也是现代硬盘的一个自修复功能,只要这个功能在起作用,你就不会发现硬盘出现坏道,所以说“坏道”也是一个应该淘汰的老词了。
这一自修复功能的原理是:当硬盘的某扇区持续出现读/写/校验错误时,硬盘固件程序会将这个不良扇区的地址重定向到预先保留的某个备用扇区,这就称为重新映射扇区。此后这个不良扇区不会再被使用,这等于将这个不良扇区屏蔽了,所以这样的硬盘容量不会减少,在Windows常规检测中也不会发现坏扇区,只有从SMART参数中才能发现已经有不良扇区被替换。
完好的硬盘,(05)项的数据肯定为零,当前值远大于临界值。如果数据不为零就表示已经有不良扇区被“重映射”,被重映射的扇区增加,当前值就会下降。如果当前值下降到接近临界值,就说明备用扇区将用尽。
(C5)(Current Pending Sector Count)
是当前待映射扇区计数,这一参数的数据表示了“不稳定”的扇区数,即“等待被映射”的扇区数量。因为扇区仅仅读取错误并不会导致立即重映射,只有在写入失败时才会发生重映射。
所以,如果有扇区在读取时出现错误,(C5)就会有计数,表示有扇区不稳定。如果该扇区随后被读写成功,等待被映射的操作就会取消,(C5)的计数会下降。如果下一次对该扇区的写操作继续发生错误,就会产生重映射,然后(05)计数要增加,(C5)计数随之下降。如果以后长时间并未再对该扇区进行任何读写操作,那么(C5)的计数也会一直维持下去。
因此,当你的硬盘发现(05)参数有了数据量后,并不需要任何操作,只要注意以后的发展。如果(05)的数据量不大,也不再增长,那这块硬盘还可继续使用。若(05)的数据不断上升,说明硬盘已处于不稳定状态,应当立即备份数据,调换硬盘了。因为备用扇区一旦用尽,再有不良扇区就会真的出现坏道导致数据丢失。即使使用专门的工具把坏道隔离出来,也不能保证不再出现新的坏道,而且硬盘容量会明显减少。
由于不同硬盘的备用扇区数量并不相同,所以单看(05)的数据量并不能判断硬盘还可支持多长时间,还要注意(05)的当前值,即使(05)的数据量不大,但当前值下降很快,甚至接近临界值,也应果断调换硬盘。另外,有的硬盘(05)的数据量很大,但不再增长,而且当前值也下降很少,这样的硬盘最好也不要再使用,因为保留的备用扇区都是位于磁盘的尾部,大量使用保留扇区将大大增加磁头的寻道操作,使得读写效率下降,导致系统运行缓慢。
(C7)(Interface Cyclic Redundancy Check,ICRC)
参数也是比较引人注意的,这个参数的数据累计了通过接口循环冗余校验发现的数据线传输错误。如果这个值不为0而且持续增长,表示硬盘控制器→数据线→硬盘接口出现错误,劣质的数据线、接口接触不良都可能导致此现象,并将导致数据传输速度下降,与硬盘本身倒关系不大。
唯一要了解的是,有些新硬盘的这一参数也有一定数据量,这并不表示硬盘有什么质量问题。因为(C7)参数的数据只会增长,不会归零。所以当你更换了数据线、清洁了接口后发现数据不再增长,即表示问题已解决。