SMART在这里可不是“奔驰老头乐”,它是Self-Monitoring, Analysis and Reporting Technology自我监测、分析和报告技术的缩写。通过SMART中报告的信息,我们能够了解到SSD的健康状态及预警信息。
一般来说不同硬盘的SMART项定义是不同的,但NVMe协议中对SMART项进行了规范化。下图是东芝SSD Utility工具箱软件中对RC500的SMART检测报告:
数据非常详细,但对于普通用户来说又有些无力感。下面存储极客就以东芝RC500为例,带大家读懂NVMe固态硬盘的SMART定义。
Critical Warning重要警告:
这一项需要观察“原始值”一列的数据,正常情况下应为0。如果显示为1代表当前硬盘处于过热状态;显示为2代表闪存出现严重错误导致可靠性降级,该考虑更换了;显示为3代表闪存已经进入只读状态(寿命用尽,锁盘以保护用户数据)。还有一种状态4是只有企业级固态硬盘才具备的,代表增强型断电保护功能失效(通常是因为电池/电容故障)
Composite Temperature综合温度:
这一项的单位是热力学温度开尔文,减去273之后就是我们常用的摄氏度了。不同固态硬盘对正常温度的定义是不一样的,通常只有厂商自己的工具箱软件才能明确。例如东芝RC500的正常温度是在79度以下,达到79度后SSD Utility会报告高磁盘温度。
Available Spare可用冗余空间
这一项显示的是当前可用于替换坏块的闪存备用块占出厂时总数的百分比,是一项非常重要的健康度指标。配备东芝BiCS闪存的NVMe固态硬盘可以在使用很久后依然保持100%的状态。
Available Spare Threshold备用空间阈值
与上一项相关,当可用备用空间低于该阈值时就会发出预警,提醒用户闪存剩余寿命不足,该更换新硬盘了。
Percentage Used已使用的耐久度
这一项显示的是已经使用的写入耐久度(百分比),平时我们看到的健康度其实就是100%减去已使用耐久度百分比后的结果。
Data Units Read读取扇区计数
该项数值乘以1000后即为读取的扇区(1扇区=512字节)数量统计。
Data Units Write写入扇区计数
该项数值乘以1000后即为写入的扇区(1扇区=512字节)数量统计。
Host Read Commands读取命令计数
固态硬盘自使用以来累计接收到的读取命令数量统计。
Host Write Commands写入命令计数
固态硬盘自使用以来累计接收到的写入命令数量统计。
Controller Busy Time主控繁忙时间计数
该项统计的是主控忙于处理IO命令的时间总和(单位:分钟)。当IO队列有未完成的命令时,主控即处于“忙”的状态。下图所示为东芝RC500固态硬盘的主控芯片TC58NC1202GST:
Power Cycles通电次数
Power On Hours通电时间
Unsafe Shut downs不安全关机次数(异常断电计数)
非正常断电是威胁固态硬盘的大敌,我们应该尽可能地避免强制关机。东芝的SSD Utility工具箱软件会自动记录不安全关机次数,并通过活动警告提醒用户关注。
Media and Data Integrity Errors闪存和数据完整性错误
主控检测到未恢复的数据完整性错误的次数。当有纠错引擎无法校正的ECC、CRC校验失败或者LBA标签不匹配错误发生时,该数值会增加。这一项数值如果不为零,代表固态硬盘工作已经不稳定。
Number of Error Information Log Entries错误日志条目计数
Warning Composite Temperature Time过热警告时间
Critical Composite Temerature Time过热临界温度时间
NVMe固态硬盘的SMART健康信息报告已经比较完整,但还遗漏了一项接口速率。在经过多次插拔之后,M.2接口可能会松动,导致固态硬盘的读写速度达不到应有的水平。这个故障也可以通过东芝SSD Utility工具箱发现和排除,非常方便。
NVMe固态硬盘的健康信息通常使用英文显示,尽管看起来复杂,但经过今天存储极客的介绍之后,是不是就有了豁然开朗的感觉呢?