Anna Khomulo - Fotolia

SSD设备故障的原因及处理方法

尽管NVMe ssd是一种高度可靠的存储技术,但它们仍然容易出现偶尔的故障。这里有一些让您的ssd运行良好的最佳实践。

与硬盘相比,ssd非常可靠;然而,没有一种存储技术是完美的。甚至是最新的NVMe SSD年代容易突然或逐渐崩溃。

知道如何发现即将到来的征兆固态硬盘如果SSD发生故障,以及了解如何排除故障,则可以区分永久数据丢失和无故障恢复之间的区别。与任何存储设备一样,NVMe SSD最终也会失败;唯一的变量是何时。与硬盘驱动器不同,ssd不能发出声音警告可能出现问题。然而,尽管SSD可能已死,但并不一定会失去一切。

以下是SSD故障的四个主要原因,以及如何解决这些问题。

1.热

NVMe ssd对于新手来说,最困扰他们的问题是计算机领域最古老的问题之一:热量。IT管理软件和监控工具提供商SolarWinds的首席极具技术人员Leon Adato表示:“NVMe ssd可能会过热运行,尤其是在运行高级别计算等高强度操作时。”“即使在常规操作下,NVMe (ssd)也会产生导致问题的温度。”

提供足够的冷却可以确保SSD不会过热,避免出现故障或降低速度。目前的挑战是找到一种方法将热量从驱动器上吸走。解决这个问题的方法有很多种。“你可以[使用]一个大底盘,这样你可以确保大量的直接外部气流通过芯片,或者你可以安装散热器,风扇或液体冷却系统,”Adato说。

IT部门需要迅速了解故障,而更快地修复故障远比找出罪魁祸首重要得多。
莱昂Adato头客,SolarWinds

将环境室温降低到较低的水平,对于解决SSD热相关问题也有很长的路要走。Adato说:“无论采用哪种方法,我们的想法都是增加系统底盘内部的冷却和/或降低环境温度。”

2.固件失败

SSD固件非常复杂,许多SSD故障往往是一种极端情况——只发生在正常运行参数之外的问题。幸运的是,当一个严重的固件问题暴露出来时,大多数ssd会自动陷入故障安全模式.“如果SSD不能保证数据的完整性,通常供应商实现一个‘断言’或其他故障模式,他们将名称空间离线或将其置于只读模式,以保护主机软件不读取坏数据。”英特尔高级战略规划师和产品经理、NVM Express工作组联合主席Jonmichael Hands说。NVM Express是负责NVMe规范开发的联盟。

固件的问题这种事时有发生。例如,去年11月,惠普企业(Hewlett Packard Enterprise)发布了一份客户公告,警告其SSD固件版本HPD8需要进行关键修复。未能应用该修复的组织将看到他们的驱动器在32,768小时的运行时间内出现故障。因此,在整整3年270天零8小时内,存储在驱动器上的所有数据都将丢失。

将这些资源添加到SSD运行状况和性能工具包中

我们正在举办闪存峰会按需内容库。只需点击一个按钮,您就可以访问所有可用的pdf文件- 8覆盖SSD健康和维护。我们是来帮你监控存储技术的。

立即下载

3.滥用

SSD误用的最常见形式是驱动器过早损耗,因为它没有与数据中心工作负载适当匹配。“例如,一个(quad-level细胞)驱动器更低的持久性意味着扩展存储或对象存储,而不是用作具有大量随机写入的缓存驱动器,”Hands说。

幸运的是,耐力可以准确地预测和建模,因此很容易提前计划,以减少SSD故障。“了解你的SSD支持的DWPD(硬盘每天写多少数据)和TBW (tb写多少数据),”Hands说。“为你的工作量建模,并找出哪种SSD是最好的。”要预测硬盘的磨损日期,可以使用英特尔的SSD Endurance Estimator等有用工具是可用的

4.隐藏的问题

SSD问题通常不会变得明显,直到它们开始引起重大问题。你越早知道有问题,就能越快地对情况做出反应,将影响降到最低。“确保你使用硬件监控软件来跟踪……用于I/O速度、坏块和其他故障模式的组件,这样当出现问题时,你就能尽快知道。”

Adato指出,创建一个业务环境也很重要,在这个业务环境中,终端用户可以放心地报告一个行为糟糕、次优或奇怪的基于ssd的系统。他说:“IT部门需要迅速了解故障,而更快地修复故障远比找出罪魁祸首重要。”

当SSD出现故障时,快速解决问题是防止过多损坏的关键。Adato说:“你能期望的最好结果就是失去写入驱动器的能力,但保留读取的能力。”“因此,你可以把所有数据(放到另一个驱动器上),然后再把设备扔进垃圾堆。”

下一个步骤

监视NVMe ssd的运行状况

在人工智能和实际工作负载下优化SSD性能

深入挖掘全闪存数据中心

搜索灾难复苏
搜索数据备份
搜索聚合基础设施
关闭
Baidu