- 論壇徽章:
- 0
|
當(dāng)RAID5中兩塊硬盤(pán)出現(xiàn)故障時(shí)數(shù)據(jù)恢復(fù)一例
武警浙江總隊(duì)醫(yī)院信息科 陶春雨 潘哲毅
--------------------------------------------------------------------------------
廉價(jià)冗余磁盤(pán)陣列RAID(Redundant Array of Inexpensive Disk)是一種容量大、速度快、可靠性高的外部存儲(chǔ)器,現(xiàn)已在各種高性能的服務(wù)器、工作站及大中型計(jì)算機(jī)中得到廣泛應(yīng)
用。其中的RAID5級(jí)為無(wú)獨(dú)立校驗(yàn)磁盤(pán)的奇偶校驗(yàn)磁盤(pán)陣列,采用數(shù)據(jù)分塊和獨(dú)立存取技術(shù),能在同一磁盤(pán)上并行處理多個(gè)訪問(wèn)請(qǐng)求,較適用于訪問(wèn)請(qǐng)求頻繁的場(chǎng)合,如醫(yī)院信息系統(tǒng)(HIS)。由于此技術(shù)特點(diǎn):在一個(gè)硬盤(pán)出現(xiàn)錯(cuò)誤時(shí),當(dāng)插入新硬盤(pán),能利用其他硬盤(pán)上信息對(duì)受損數(shù)據(jù)進(jìn)行恢復(fù),但當(dāng)兩塊硬盤(pán)出現(xiàn)錯(cuò)誤時(shí),要恢復(fù)數(shù)據(jù)就會(huì)有一定的困難了,我們醫(yī)院在不久前就出現(xiàn)過(guò)類似現(xiàn)象。
一、故障重現(xiàn)
我們醫(yī)院硬件配置為:HP LH6000 PIII700 Xeon 512M內(nèi)存,18G硬盤(pán)一塊 Ⅹ 2臺(tái),作兩機(jī)容錯(cuò),操作系統(tǒng)為Windows NT SP4,數(shù)據(jù)庫(kù)平臺(tái)為Oracle 7.3,光纖為主干的星形拓?fù)渚W(wǎng)絡(luò),HP磁盤(pán)陣列柜一臺(tái),四塊18G IBM 硬盤(pán)做RAID5用以存放HIS系統(tǒng)數(shù)據(jù),分別標(biāo)為硬盤(pán)ID0、ID1、ID2和ID3。下面是當(dāng)時(shí)故障的重現(xiàn):
1、硬盤(pán)ID2在早上7:30時(shí)出現(xiàn)閃紅燈現(xiàn)象,其余硬盤(pán)正常,無(wú)出錯(cuò)提示。
2、硬盤(pán)ID0在下午14:00時(shí)也出現(xiàn)閃紅燈現(xiàn)象,另兩塊硬盤(pán)正常,網(wǎng)絡(luò)可訪問(wèn),
3、14:15時(shí),服務(wù)器屏幕上出現(xiàn)出錯(cuò)提示框:D盤(pán)(即陣列盤(pán))不能訪問(wèn)。依次關(guān)掉備份服務(wù)器、主域服務(wù)器、磁盤(pán)陣列柜后保護(hù)現(xiàn)場(chǎng),開(kāi)始分析故障原因,處理故障。
二、故障分析
RAID5技術(shù)原理是:采用磁盤(pán)冗余技術(shù)和磁盤(pán)校驗(yàn)技術(shù),將數(shù)據(jù)分布在磁盤(pán)陣列中的各個(gè)磁盤(pán)上,這樣做可以提高數(shù)據(jù)的可靠性和讀取數(shù)據(jù)時(shí)的速度。如果陣列中的某一個(gè)硬盤(pán)失效時(shí),能運(yùn)用上述技術(shù),利用陣列中其他硬盤(pán)的信息,恢復(fù)失效硬盤(pán)中的數(shù)據(jù),但如果有一個(gè)以上的硬盤(pán)同時(shí)失效時(shí),在技術(shù)上來(lái)說(shuō)數(shù)據(jù)是不可恢復(fù)的。結(jié)合我院出現(xiàn)的實(shí)際情況,我們分析:有可能是由于硬盤(pán)ID2出現(xiàn)錯(cuò)誤后,數(shù)據(jù)的讀取量增大,導(dǎo)致另三個(gè)硬盤(pán)在進(jìn)行冗余校驗(yàn)時(shí)可能出現(xiàn)邏輯錯(cuò)誤,而并不是出現(xiàn)了真正的物理?yè)p壞或失效;谝陨戏治,我們?cè)诒WC數(shù)據(jù)完整性的原則下,開(kāi)始拯救數(shù)據(jù)。
三、數(shù)據(jù)拯救
1、打開(kāi)磁盤(pán)陣列柜,啟動(dòng)主域服務(wù)器,自檢至陣列柜時(shí)按Ctrl+M進(jìn)入NetRaid管理程序,查看陣列信息,發(fā)現(xiàn)硬盤(pán)ID0與硬盤(pán)ID2狀態(tài)為Failed,運(yùn)用修改配置將硬盤(pán)ID0強(qiáng)制OnLine,重新啟動(dòng)服務(wù)器,在進(jìn)入NT前的硬件自檢時(shí),出現(xiàn)硬盤(pán)ID2,ID0依次閃紅燈,訪問(wèn)D盤(pán)失敗。
2、打開(kāi)磁盤(pán)陣列柜,啟動(dòng)主域服務(wù)器,自檢至陣列柜時(shí)按Ctrl+M進(jìn)入NetRaid管理程序,選擇磁盤(pán)陣列,將陣列配置信息清空,然后新建磁盤(pán)陣列信息(不作初始化),并將硬盤(pán)ID2與ID0強(qiáng)制OnLine后,重新啟動(dòng)服務(wù)器,在進(jìn)入NT前的硬件自檢時(shí),出現(xiàn)硬盤(pán)ID2,ID0依次閃紅燈,訪問(wèn)D盤(pán)失敗。
3、關(guān)閉磁盤(pán)陣列柜,將磁盤(pán)陣列柜上的所有四塊硬盤(pán)全部拔除,啟動(dòng)主域服務(wù)器,正常進(jìn)入NT,打開(kāi)磁盤(pán)陣列柜,用NT下的HP NetRaid管理軟件,將硬盤(pán)ID0進(jìn)行熱插拔,軟件能檢測(cè)到此硬盤(pán),并無(wú)任何錯(cuò)誤提示,依次將硬盤(pán)ID1,ID2,ID3進(jìn)行熱插拔,但在進(jìn)行至硬盤(pán)ID2時(shí)軟件檢測(cè)不到此硬盤(pán),立刻將其拔除,換上一塊新硬盤(pán),此時(shí)四塊硬盤(pán)狀態(tài)為Ready,全部選中后新建RAID5信息,成功后將硬盤(pán)ID2狀態(tài)置為Failed,然后進(jìn)行Rebuild,運(yùn)用RAID5技術(shù)恢復(fù)這塊真正失效的硬盤(pán)上的數(shù)據(jù)。但當(dāng)進(jìn)度到達(dá)50%左右時(shí),出現(xiàn)錯(cuò)誤提示,重新啟動(dòng)服務(wù)器,進(jìn)入NT后,系統(tǒng)自動(dòng)進(jìn)行CHKDSK,出現(xiàn)修復(fù)硬盤(pán)信息,無(wú)任何錯(cuò)誤提示,在磁盤(pán)正常自檢后訪問(wèn)D盤(pán)成功。此時(shí)時(shí)間18:00分左右。
四、個(gè)案總結(jié)
在經(jīng)過(guò)了長(zhǎng)達(dá)6小時(shí)的緊張的數(shù)據(jù)搶救后,我們終于成功的恢復(fù)了數(shù)據(jù),經(jīng)過(guò)此次驚心動(dòng)魄的數(shù)據(jù)拯救后,我們痛定思痛,總結(jié)了以下幾條經(jīng)驗(yàn):
1、在出現(xiàn)問(wèn)題后不能緊張,應(yīng)冷靜分析故障原因,全面了解硬件知識(shí),作出正確合理的判斷,以最小的代價(jià)解決問(wèn)題。在我們此次故障處理過(guò)程中,我們對(duì)故障的進(jìn)行了合理的分析,運(yùn)用了服務(wù)器硬盤(pán)可熱插拔的性能特點(diǎn),在保證另兩塊硬盤(pán)數(shù)據(jù)完整的基礎(chǔ)上,進(jìn)行了正確的數(shù)據(jù)拯救,從而確保了故障的圓滿解決。
2、在處理問(wèn)題時(shí)應(yīng)遵循由簡(jiǎn)單到復(fù)雜,由安全到危險(xiǎn)的原則,應(yīng)確保不破壞數(shù)據(jù)的原則下進(jìn)行故障處理。硬盤(pán)內(nèi)的數(shù)據(jù)信息對(duì)我們醫(yī)院來(lái)說(shuō),是非常重要的,處理故障的過(guò)程也就是我們拯救數(shù)據(jù)的過(guò)程,因此我們?cè)诠收咸幚磉^(guò)程中沒(méi)有進(jìn)行一味的蠻干,在清除磁盤(pán)陣列信息的同時(shí),并沒(méi)有對(duì)硬盤(pán)內(nèi)數(shù)據(jù)進(jìn)行任何操作,從而確保了數(shù)據(jù)的安全性。
3、在處理故障時(shí)應(yīng)將服務(wù)器與網(wǎng)絡(luò)的連接切斷,因?yàn)樵诨謴?fù)網(wǎng)絡(luò),受損硬盤(pán)修復(fù)的過(guò)程中,會(huì)有用戶登錄至服務(wù)器,進(jìn)行數(shù)據(jù)操作,從而產(chǎn)生新的數(shù)據(jù),這樣就有可能產(chǎn)生新的邏輯錯(cuò)誤,對(duì)于故障的排除非常不利。
4、經(jīng)過(guò)此次故障,我們認(rèn)為任何先進(jìn)的技術(shù)手段都不可能是萬(wàn)無(wú)一失的,如果要確保數(shù)據(jù)安全,就一定要做好備份工作,最好每天作一次數(shù)據(jù)庫(kù)的異地備份;并至少備好一塊新硬盤(pán),以便在第一塊硬盤(pán)出現(xiàn)錯(cuò)誤時(shí)就能及時(shí)換上,進(jìn)行數(shù)據(jù)恢復(fù),防止以上類似事件的再次發(fā)生。
|
|