平均无故障时间:它可以帮助预测硬盘故障吗?

2015年5月19日 通过 萨姆·威尔特郡

在Kroll 步入正轨,我们深知数据丢失会影响任何人。对于我们许多人来说,它以硬盘驱动器(HDD)故障的形式出现-表示机械,电子和逻辑缺陷的笼统术语,这些缺陷使存储在其中的信息变得不可读。有几十个 可能的原因 对于这种类型的故障,从逻辑软件错误到物理损坏和过热,当然还有所有存储设备的使用寿命有限。

您可能已经熟悉一些迹象表明硬盘驱动器已经停滞不前。例如,奇怪的声音-如果您的HDD从旋转和咔嗒声转变为打磨和and撞,则可以肯定的是,它将放弃鬼影。此外,缓慢的访问时间,频繁的崩溃和异常行为(例如,数据损坏和文件消失)是硬盘故障的可靠指示。

不幸的是,这些并不是您用来检测HDD故障的科学指标。侦听便携式计算机或塔式计算机发出的奇怪声音是一回事,而将相同的方法应用于远程数据中心的独立磁盘冗余阵列(RAID)环境则是另一回事。

那么,消费者和企业用户如何才能预测他们的硬盘驱动器何时发生故障?好吧,他们的第一个上门服务可能是检查制造商对存储设备寿命的估计,通常以平均故障间隔时间(MTBF)等级的形式提供。

但是,与该基准测试一样,必须牢记的是,给定的读数可能并不像它第一次出现时那样透明和令人放心。

什么是平均故障间隔时间(MTBF)?

从理论上讲,MTBF评级实际上听起来像是-一个组件故障中一个固有故障与下一个固有故障之间的平均时间间隔。因此,如果机器或零件发生故障并随后进行了维修,则其MTBF值是指在再次发生故障之前可以正常运行的小时数。

使用消费类硬盘,MTBF大约为30万小时并不罕见。那是12,500天,或超过34年。同时,企业级硬盘广告的MTBF长达150万小时,这是175年中最好的部分。令人印象深刻的东西!

应该清楚地看到这些数字具有误导性,并且与我们对硬盘寿命和可靠性的现实世界的期望相去甚远。这并不是因为MTBF指标本身存在问题-远不是营销流行语,它在军事和航空航天工程领域拥有悠久而杰出的血统。但实际上,自18世纪中叶以来,没有硬盘制造商一直在测试其企业级硬盘-而是从统计意义上的大量硬盘一次运行数周或数月而不是设备的平均使用寿命得出的错误率得出的在该领域。

相应地,研究表明,MTBF通常承诺的故障率要比实际性能中的故障率低得多。 2007年,卡内基梅隆大学的研究人员 调查了100,000个HDD的样本 制造商提供的MTBF范围为100万到150万小时。这意味着每年的故障率(AFR)为0.88%,但他们的研究发现,该领域的AFR"通常会超过1%,常见的是2%至4%,在某些系统中通常会高达13%".

Google的同期研究得出了类似的结果:从一个具有30万小时MTBF(AFR为2.92%)的100,000个硬盘样本中,到设备使用的第三年,实际AFR超过8.6%。

请注意,制造商不会放心地对这种差异视而不见。都 希捷西部数据 例如,最近几年,该公司已逐步将其硬盘使用该指标。

因此,事实证明MTBF不能可靠地反映硬盘的健康状况,那么我们还能如何预测存储设备使用寿命的结束呢?您的经验是什么?在下面的评论中让我们知道。

载入更多评论
谢谢你的意见!您的评论必须先获得批准


新密码