RAID阵列中离线磁盘的强制上线操作和注意事项

RAID强制上线(Force Online)仅为raid掉线,服务器识别不到硬盘时所做的临时处理,不能解决所有的RAID损坏问题。RAID强制上线存折风险,只要掉线,肯定是有原因的,最大的可能就是硬盘的原因。如果你把盘强制上线后,数据一同步,可能在中途,或在使用中还会出现问题。数据比硬盘值钱的。如果是断电造成的话,可能会好点儿,用着应该没问题的。
今天就遇到一个4块盘组建的RAID5,有2块盘不在线,服务器系统启动不了。机房在客户的授权下进行了在关机状态下,保持磁盘的顺序不变的情况下,重新 插拔一遍磁盘,开机测试还是提示一样的错误。后来客户自己去机房了操作去了,据说客户是在RAID控制面板中,对掉线的磁盘进行强制RAID上线,然后就行了 。(点击Drives下面有问题的磁盘,在显示的属性中,选择Force Online确定,后点击exit退出RAID控制界面,重新启动服务器即可进入系统。) 初步分析可能是突然断电强制重启服务器造成的RAID中磁盘掉线,也不排除其中至少有一块磁盘是存在问题的。 鉴于此,对于做有了RAID的服务器,不要强 制性的突然断电的重启。
若单个硬盘失效,尝试热插拔,即拔下来再插上去。如果不能解决,则进入RAID配置界面,将该硬盘进行ForceOnLine操作。如果不能解决,尝试更换其它硬 盘插槽(一定不要改变磁盘顺序)。如果还是不能解决,尝试将该硬盘格式化后插入,然后使用ReBuild操作;如果不能格式化,基本是硬盘物理错误严重,尝试更 换硬盘后重建资料。如果多块硬盘失效,先将部分(不要全部同时上线)硬盘强制上线,然后进入操作系统尝试读取资料,如果能够读取,再将其它硬盘上线,然 后重建资料。

raid5

RAID5磁盘阵列一般情况下故障有以下几种:
1.突然断电造成磁盘或盘阵信息的丢失。如果非正常断电,导致了内存中的信息来不及保存到硬盘灯存储设备上,就会造成信息完全丢失、信息不完整、机器运行缓慢等。
2.一个硬盘掉线,换上好盘Rebuild,导致资料不正常。由于非专业人员或系统误操作,造成资料因逻辑结构不完整而无法读取,一般表现为资料存储介质无法被计算机识别等情况容易导致RAID磁盘阵列信息丢失。
3.阵列中磁盘掉线达到两块或两块以上,阵列崩溃。
4.磁盘或盘阵的物理故障,如:电路板坏、磁头损坏、盘面坏、坏扇区等。
5.在没有任何异常的情况下,磁盘或阵列引导不正常。

在企业的存储应用中,RAID存储是非常重要的一部分,然而当RAID发生故障时,普通的维护人员并不能保证所采取的RAID恢复方案对数据安全是没有风险的,甚 至有时相关技术人员完全没有意识到这种风险的存在。
下面我们就拿最常见的RAID5做一下分析,假设该RAID5(非软RAID)中存在N(N>=3)块硬盘,那么当该RAID中有一块硬盘因为某种原因(硬盘有物理问题或电 源线,数据接触不良)而离线时,RAID实际上是处于一种不健全的使用状态,也就是说此RAID仍然可以继续正常工作,操作系统是不会察觉到RAID的变化的,只 不过此时的RAID卡的负担会比平时加重,因为处于降低状态就让RAID卡多做了一份工作,它要通过现有的在线硬盘(N-1块)的数据经过校验计算出已经处于离线 状态的硬盘数据,负担加重后的RAID就会变得更加脆弱。在一块硬盘离线后,若管理员能及时发现,在没有确定硬盘离线原因的情况下,建议不要轻易将已经离 线的硬盘做强制上线,原因如下:
1. 如果硬盘是由于物理问题导致的离线,强制上线不但不会成功,反而再次加重了RAID卡的负担。
2. 如果硬盘并非存在物理问题,强制上线也许可以成功,但这个操作依然有一定的风险,如果RAID中另外几块硬盘存在物理问题,强制上线后的重建操作就一定会发现有问题的硬盘,这时的RAID有可能会彻底崩溃。
3. 将已离线的硬盘强制上线会使系统提供对外服务的性能和速度下降。
由此可见,强制上线操作从数据安全性上考虑是有一定的风险的,如果数据比较重要,在有一块硬盘离线(RAID5)的情况下,可以参考以下步骤来保证数据的安 全:
1. 如果存储环境较好,可先将全部数据备份至其他安全存储中。
2. 若现有的存储空间无法备份全部存储,可选择性的备份部分重要数据。
3. 可在系统对外提供服务相对较少时,用没有物理问题的硬盘替代离线硬盘做强制上线操作。

出现问题以后,不要急于开始RAID资料修复及RAID配置,可以先向生产厂家寻求帮助,以及到专业资料恢复公司的网站查询或者电话咨询,自己不能确定的操作 不要去尝试,以免造成更大的损失,导致资料不可恢复。

为了在raid磁盘阵列故障发生后,将资料丢失的风险降到最低,最好的方法是备份。经常性的本地备份、防止特殊情况而异地备份、维护电路系统将非正常 停电频率降至最低、也可配备UPS、重要资料额外增加备份的磁盘/盘阵或备份带库;建立良好的工作环境及安全按照专业人员的指导合理规范的操作设备。

阵列的offline,rebuild,强制替换,迁移等等测试

 

相关新闻

联系我们

全国服务热线

400-033-9553

电子邮件:admin@example.com
工作时间:09:00-17:00 周一至周五

在线客服
关注微信
关注微信
分享本页
返回顶部