1.前言
大家对SSD的第一印象就是性能高、速度快,然而随着SSD在数据中心、高性能计算、高端存储、边缘计算等各种企业级应用场景的逐步普及,近年来企业级SSD产品的发货量逐年快速上升,而随着实际在网运行数量的逐步增加,一些可靠性问题也逐渐体现,而SSD的可靠性也企业级用户重点关注的方向。
讲到SSD的可靠性,我们通常能听到的术语有:Failure Rate(故障率或者失效率)、MTBF、AFR、Retention、Endurance、 UBER、FFR等,在实际工作中经常有些不是可靠性领域的工程师来询问这些指标的含义,所以本文主要简单介绍一下这些SSD可靠性指标的概念及其意义,方便大家更深入的了解和认识SSD的可靠性。
2. 故障率/MTBF/AFR
2.1 故障率
2.2 浴盆曲线模型
提到可靠性,必须要讲下最经典的浴盆曲线(Bathtub Curve)可视化模型,浴盆曲线模型是指导产品或者系统进行可靠性设计、验证、优化的最常用的模型,也是可靠性工程师甚至质量工程师都非常关注的理论。
浴盆曲线简单来说将产品的生命周期分为三个阶段:
1)早期失效期(Infant Morality Period):此阶段失效率较高,大多是生产制造带来的失效,但是这段时间比较短,而且失效率随着时间推移会迅速降低并趋于稳定。
2)稳定期(Steady Period):或者叫随机失效期,有时也叫正常生命期,这个阶段产品的失效率是恒定的常数,通常发货给客户的产品都工作于这个阶段。
3)寿命耗尽期(Wear-out Period): 这个阶段产品由于寿命的耗尽,失效率逐渐增高。浴盆曲线在可靠性的设计和优化上有非常多的应用,本文中所讨论的可靠性指标MTBF/AFR等,都是指的正常生命期也就是稳定期。
2.3 MTBF
MTBF 全称为Mean Time Between Failure即平均失效间隔时间,其定义为给定的样本数量,工作小时后,出现次故障,每个样本失效时已正常工作的时间记为 , 单位为小时:
MTBF通常用于一个故障可恢复的系统,相比故障率指标,MTBF的定义更加直接,也更适用于表现系统级的可靠性,更常用于预测和表征产品和系统的可靠性,而不是用故障率来进行体现。
2.4 AFR
实际应用中我们还经常听到AFR的概念,AFR即Annual Failure Rate,即年化的失效率,假设年度的发货量为,故障个数为,那么可以定义:
上面等式中的表示产品(系统)的时基失效率,AFR主要用于产品或者系统在发货后进行的故障率统计,这点和DPPM有类似之处,只不过DPPM更多用于独立的元器件。
3 故障率/MTBF/AFR的关系和意义
上面介绍了故障率、MTBF、AFR的定义,接下来说一说它们之间的关系及实际意义
3.1 故障率和MTBF关系
因此,实际SSD产品的可靠性设计和评估方法是:系统的MTBF可以通过系统的失效率评估得到。而系统的是可以通过各个器件的失效率计算得到,器件的失效率(即FIT值)可以从各个元器件厂家获取。
需要强调的是系统失效率评估并非简单的所有独立元器件FIT值相加,而是需要根据元器件在系统中具体的使用方法和系统的适用场景计算,可以参考BellCore等专业文档。
3.2 MTBF的验证方法RDT
MTBF相对故障率来说,更易于在研发过程中进行验证。MTBF的测试验证方法也就是通常讲的RDT(Reliability Demonstration Test)即可靠性验证测试,通过RDT验证MTBF的原理如下:
上述等式中各参数的意义:
1)SS表示样本量;
2)AF表示温度加速因子,通常采用高温加速的方式进行;
3)TestHours 表示总测试时间,单位:小时;
4)A表示置信度因子,
5)CL表示置信度水平,r表示允许的失效个数,表示卡方分布;
3.3 MTBF 和 AFR的关系
根据MTBF和故障率的关系我们可以很容易得到AFR和MTBF的关系如下:
那么既然已经有MTBF为什么还要增加AFR这个指标呢,个人认为有以下两点区别:
1)MTBF主要用于研发设计时对产品可靠性指标进行预测和测试验证,不易于实际统计:MTBF 是在SSD产品设计时,需要制定的可靠性指标,MTBF需要在产品研发阶段通过计算可以得到,同时可以通过RDT等测试方法进行验证,因此MTBF更偏向于发货前的研发理论设计和研发阶段的验证;
2)AFR更易于在产品实际发货后进行统计,是对MTBF设计的实际验证:AFR虽然可以通过MTBF得到,但AFR更重要的是易于在SSD产品实际发货后进行统计,是一个实际的统计值,而统计MTBF则比较难在实际产品发货后统计。通过实际统计得到的AFR和设计的AFR值比较,是最终验证MTBF设计指标是否达成的依据,也是SSD产品可靠性在用户使用阶段最直接的体现指标之一。
3.4 小结
实际上我们在做系统可靠性设计时,需要将故障率、FIT值、MTBF、AFR联系起来看,总结如下:
1)元器件的故障率是计算系统故障率的基本输入参数,通过系统故障率来评估系统MTBF;
2)系统级可靠性更直接的是用MTBF进行体现,MTBF可在批量发货前通过RDT验证;
3)AFR可以用于批量发货后的可靠性反馈验证;
4)可以大概总结硬件系统的MTBF可靠性设计预测和验证流程如下:
4 Endurance/Retention /UBER/FFR
前面三部分讲的失效率(Failure Rate)、MTBF和AFR都是通用的硬件产品可靠性指标,而不是SSD产品所特有的。实际上对于SSD产品来说,还有自己特有的特性和可靠性指标,也就是大家常见的Endurance、TBW、Data Retention、UBER、FFR这几个概念,实际上这几个概念的定义都来源于JESD218系列规范,我们先看看这四个概念的定义。
4.1 Endurance 和 Data Retention
Endurance : The ability of an SSD to withstand multiple data rewrites,字面含义 SSD能够承受反复重写的能力,即SSD能够承受的写入数据量总和,有时也叫Endurance Rating。如果以TB为单位表示总写入数据量,在规范中也被叫做TBW,Endurance/Endurance Rating/TBW都代表的相同的意思。
讲到Endurance还有一个常见的规格被叫做DWPD,即Drive Write Per Day, 表示的是盘片每天能够写入的总数据量和盘片自身容量的比值:
因此DWPD和Endurance(TBW)的关系为:
上面等式中表示该盘片的寿命是5年,这是企业SSD通常标称的寿命。
Data Retention :The ability of the SSD to retain data over time,即SSD保存数据时间的能力,有也简化为叫Retention¥¥那么为何SSD要有Endurance和Data Retention的概念呢?
因为SSD使用NAND Flash作为存储数据的介质,NAND Flash 是一种数据非易失的介质,但不是永久不丢失数据的介质。NAND Flash有两个明显的特点:
第一,每个NAND Flash内部单元存在磨损寿命,也就是通常讲的Erase-Program 次数(擦除编程次数,简称EP),当EP达到一定程度,NAND Flash 上数据的误码率将变大,也就无法实现对数据的可靠保存,因此NAND Flash存在磨损寿命(Endurance)的概念;
第二,存放在NAND Flash内部单元的数据,只能保存一定长度的时间,当超过该时间,数据会逐渐丢失,因此NAND Flash存在Data Retention的概念。
由于NAND Flash存在Endurance和 Data Retention概念,因此SSD产品也继承了NAND的这两个特性和概念。
不过,严格来说 Endurance和Data Retention并不是可靠性的指标,是属于功能指标,UBER和FFR才是可靠性的指标,但是UBER和FFR是需要在Endurance和Data Retention的前提条件下来定义,并进行测试验证。
4.2 UBER 和FFR
SSD是一种用于保存数据的部件,因此对行业规范中制定了关于SSD保存数据方面的可靠性指标,也就是常见的UBER和FFR。
UBER : Uncorrectable Bit Error Rate, or ratio, 字面意思即不可纠正的误比特率,计算方法如下:
FFR : The allowed cumulative functional failures over the TBW rating, 即SSD在整个磨损寿命时间范围内累积的功能失效率。
4.3 UBER/FFR的测试方法
UBER和FFR的字面含义相对来说比较容易理解,但是跟Endurance 和 Retention的关系,可以从下图中JESD218B.01标准中UBER和FFR的测试方法进行了解:
1)需要将整个测试样本量分为两部分各50%;
2)第一步部分(Part:1)在常温下进行数据读写测试(JESD219 模型),也叫磨损Endurance测试,要求总写入数据量要达到SSD标称的Endurance(或者TBW)数据量;
3)第二步部分(Part:2)在高温下进行数据读写测试(JESD219模型),也叫磨损Endurance测试,总写入数据量要达到SSD标称的Endurance(或者TBW)数据量;
4)第二部分的Endurance测试完成后,需要进行一次对数据保存时间的测试即Retention测试;
5)最后统计UBER/FFR时需要统计上面2),3),4)步骤中所有的功能失效,错误IO个数,用于计算UBER/FFR。
5 总结
本文的主要目的还是对SSD可靠性涉及到的概念进行简单梳理,帮助大家理解SSD的可靠性。由于每个指标详细的设计、预测以及验证方法都有比较多的内容,后续有机会再进行专题分享。
参考文献
1. Telcordia Technologies Special Report, SR-332, Reliability Prediction Procedure for Electronic Equipment
2. JESD218B.01 Solid-State Drive (SSD) Requirements and Endurance Test Method
评论
查看更多