Raid磁盘阵列故障类型和原因分析-电子发烧友网

由于raid的特点和优势，磁盘阵列威廉希尔官方网站被广泛应用于服务器和存储等商用领域。由于用户基数大，出现故障的情况也不少。通过这篇文章介绍一下常见的raid磁盘阵列数故障类型和原因。

故障类型一、磁盘阵列处于降级状态时未及时rebuild。

RAID磁盘阵列的数据安全冗余是利用部分空余空间实现的，阵列中有成员盘下线便无法继续提供冗余空间。如果此时未能及时更换新磁盘并rebuild整个卷，一旦raid中有其他成员盘离线将会导致整个raid卷无法工作。这类故障是北亚企安数据恢复工作中会经常遇到case。

故障类型二、raid控制器故障。

磁盘阵列控制器在充当着操作系统与物理硬盘之间的连接纽带。磁盘阵列中的硬盘数量、容量大小、raid级别、校验方式等raid信息有的存储于硬盘，有的存储于阵列卡或者在二者中都有存储。如果控制器出现故障，raid信息就无法还原，如果出现这种故障，即使能够还原raid结构并再次重建raid阵列也无法恢复数据。

故障类型三、固件算法缺陷。

RAID的创建、重建、降级、保护等功能的实现依靠的raid固件上的一套非常复杂的算法，任何复杂的算法都会有BUG，尽管厂商不会轻易承认自家产品固件算法的BUG(有可能自己也不知道)。因为固件算法BUG，发生无法解释的故障可能性肯定是有的。比如在北亚企安接到的数据恢复case中就遇到过早期生产的某品牌服务器RAID中一块盘OFFLINE后，故障盘与报警灯不一致的情况。用户在更换故障盘进行REBUILD时被误导拔错盘，导致整个RAID崩溃。

故障类型四、IO通道受阻导致RAID掉盘。

RAID控制器在设计时候优先考虑的是数据的安全性，RAID会尽可能避免将数据写到不稳定的存储介质上。当控制器与物理盘进行IO时，如果时间超过某个阈值或校验关系不满足，RAID控制器便会认为对应的存储介质已不具备持续稳定工作的能力并让其强制下线，然后通知管理员尽快解决问题。这种设计的初衷从威廉希尔官方网站上和逻辑上来看没有问题，但对于如物理连接线路松动，硬盘工作反应超时(硬盘还是完好的)等场景来说，控制器无法分辨存储介质是否真的出现物理故障，这种情况下会大概率强制磁盘下线。这类故障发生概率比较高且无法避免，很多用户因此类故障质疑服务器厂商。实际上。越是设计安全的RAID控制器，越容易发生此类故障。

故障类型五、控制器的稳定性。

RAID的控制器在ONLINE状态下(无离线盘)工作是最稳定的。当部分硬盘(物理故障或者逻辑故障)离线后控制器便会工作在一个相对不稳定的状态，这也是好多中低端的RAID控制器在有磁盘离线后就表现出读写性能下降的原因。控制器的不稳定会增加数据吞吐时IO滞留的可能性，从而导致上述第四个类型的故障的发生。中低端的控制器(无高性能处理芯片或者大容量高速缓存)发生这类故障的概率要高得多。

故障类型六、阵列中硬盘故障。

很多人认为磁盘阵列只要在正常工作，阵列中就不会存在有物理故障的硬盘。这个观点的判断依据是一旦raid中有硬盘出现物理故障，阵列控制器就会将故障硬盘踢下线。然而实际上并非如此。

RAID很少会读取到物理硬盘的所有磁盘空间，同一时间更是不可能。部分情况下，硬盘会在RAID没有读取到的区域或者RAID以前读取过的区域出现坏道，这类坏道因为没有被RAID读过，所以在控制器来看还是好的。

出现这种情况后可能会产生的直接后果就是在REBUILD过程中，当一块物理硬盘离线后，在进行REBUILD过程中，如果其他硬盘存在这类没有被RAID读取到的坏道，由于REBUILD是对全盘做全面同步，在REBUILD过程中就一定会读写到这类之前没有被RAID读取到的坏道。这时REBUILD还没完成，新盘无法上线，又在旧盘发现了坏道，RAID极有可能将发现坏道的旧盘踢出，这样就会导致RAID故障。

故障类型七、人为误操作。

人为误操作导致的RAID故障，例如：误拔了RAID里的硬盘、更换坏盘不及时、拔出硬盘更换或者进行其他操作后忘记硬盘在RAID中的顺序、不小心删除了原RAID配置等。

审核编辑：汤梓红

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

服务器

服务器

+关注

关注
12

文章
9129

浏览量
85347
RAID

RAID

+关注

关注
0

文章
278

浏览量
35087
磁盘

磁盘

+关注

关注
1

文章
375

浏览量
25203

什么是raid磁盘冗余阵列

什么是raid 磁盘冗余阵列这是由多块独立磁盘（多为硬盘）组合的一个超大容量磁盘组。大白话的解释

发表于 12-16 16:41 •155次阅读

RAID5数据恢复—如何重组RAID5阵列？

RAID5数据恢复环境：一台存储上有一组由12块SCSI硬盘（11块数据盘+1块热备盘）组建的RAID5磁盘阵列，FreeBSD操作系统+zfs文件系统。 RAID5

发表于 10-22 15:48 •238次阅读

服务器数据恢复—raid5阵列热备盘上线同步失败的数据恢复案例

服务器磁盘阵列数据恢复环境：服务器中有两组分别由4块SAS硬盘组建的raid5磁盘阵列，两组raid5阵列划分LUN，组成LVM结构，格

发表于 09-19 11:01 •282次阅读

服务器数据恢复—raid5阵列热备盘未全部成功启用的数据恢复案例

块热备盘启用替换掉其中一块离线盘，另外1块热备盘未成功启用，raid5阵列崩溃，存储不可用。 磁盘阵列中硬盘离线的原因通常是磁盘存在物理

发表于 08-14 11:27 •387次阅读

服务器数据恢复—EMC存储中raid5阵列多块硬盘离线的数据恢复案例

服务器存储数据恢复环境：一台EMC存储中有一组raid5磁盘阵列，划分1个lun供小型机使用，上层采用ZFS文件系统。服务器存储故障：一台有一组raid5

发表于 07-09 11:58 •225次阅读

服务器数据恢复—raid5阵列硬盘坏道导致raid崩溃的数据恢复案例

服务器存储数据恢复环境：某单位一台某品牌DS5300存储，1个机头+4个扩展柜，50块硬盘组建2组RAID5磁盘阵列（一组raid5阵列有27块成员盘，存放Oracle数据库文件；

发表于 07-05 12:00 •546次阅读

服务器数据恢复—X3650服务器raid5磁盘阵列数据恢复案例

一台某品牌X3650M3服务器，服务器中有一组raid5磁盘阵列，上层采用zfs文件系统。服务器未知原因崩溃，工作人员排查故障后发现服务器的ra

发表于 06-04 11:08 •515次阅读

服务器数据恢复—同友存储磁盘阵列上层虚拟机数据恢复案例

某单位同友存储，存储设备中若干磁盘组建了raid5磁盘阵列。未知原因导致存储设备崩溃无法启动，raid5

发表于 05-10 13:34 •297次阅读

恒讯科技分析：一台物理服务器可以组几个磁盘阵列？

一台物理服务器可以组成多个磁盘阵列（RAID），具体数量取决于服务器的硬件配置和设计。以下是一些影响磁盘阵列数量的因素： 1、硬盘接口数量：服务器上的硬盘接口数量（如SAS或SATA端口）会直接影响

发表于 05-09 17:25 •878次阅读

什么是RAID磁盘阵列？有没有更便捷更经济的硬RAID方案？#RAID

RAID磁盘

ICY DOCK硬盘盒
发布于 :2024年03月15日 16:50:47

【服务器数据恢复】服务器raid6阵列多块磁盘离线的数据恢复案例

一台网站服务器中有一组由6块磁盘组建的RAID6磁盘阵列，操作系统层面运行MySQL数据库和存放一些其他类型文件。

发表于 02-23 13:13 •599次阅读

一文搞懂Raid是什么？nas如何组建适合自己的阵列?

在使用NAS的过程中我们少不了纠结是否组建阵列组建何种阵列今天小马就来和大家聊一聊什么是RAID 我们又该组建何种阵列 RAID是

发表于 02-21 11:51 •699次阅读

服务器数据恢复-服务器raid6阵列3块磁盘故障离线的数据恢复案例

服务器数据恢复环境：服务器上有一组由12块硬盘组建的raid6磁盘阵列，raid6阵列上层有一个lun，映射到WINDOWS系统上使用，WINDOWS系统划分了一个GPT分区。

发表于 12-26 11:57 •608次阅读

ipsan与磁盘阵列的区别

IPSAN（IP Storage Area Network）和磁盘阵列是存储威廉希尔官方网站领域中常见的两种解决方案。它们都用于提供高可用、高性能的数据存储和访问。然而，它们在功能、架构和实施方式等方面存在着

发表于 12-25 13:39 •3345次阅读

企业存储磁盘阵列威廉希尔官方网站分享（存储主要协议对比）

磁盘阵列是一种企业级存储系统（RAID级别和磁盘阵列可以提高数据的可靠性和性能。在选择磁盘阵列时，需要考虑容量、性能、可靠性和可扩展性等因素，并进行定制化的配置以达到最佳性价比。

发表于 12-25 11:39 •663次阅读