- 論壇徽章:
- 0
|
【硬件檢測】
我們藍夢的硬件工程師先對客戶的12塊硬盤做了硬件檢測,發(fā)現(xiàn)客戶的硬盤都正常。既排除硬盤硬件故障。既然都正常,
我們就對12塊硬盤做了全盤鏡像。
【故障分析】
我們使用BestRecovery藍夢軟件備份出來的鏡像做了詳細的分析,發(fā)現(xiàn)底層的RAID是一個HP雙循環(huán)RAID5。并且第一組
RAID是好的,也就是第二組RAID的損壞導致存儲上層的卷不可用,第二RAID也是一個RAID5,如果是其中一個硬盤掉線那
么以RAID5的存儲原理應(yīng)該不會導致存儲不可用。因此可以判斷第二組RAID中至少是掉了兩塊磁盤,其中一塊是早就掉線
的,里面的數(shù)據(jù)都是舊的,我們需找出早就掉線的那塊磁盤?墒俏覀兺ㄟ^硬件檢測發(fā)現(xiàn)所有的硬盤都沒有硬件故障,那
么我們該如何判斷掉線的盤是那一個呢?
【解決方案】
由于并不知道RAID中那一塊硬盤是早掉線的,所以沒辦法重組RAID。經(jīng)過認真思考后確定有兩種可行方案。
方案一:窮舉法,即假設(shè)其中某一塊磁盤是早就掉線的,踢掉此盤,重組RAID然后生成全部數(shù)據(jù),最后將數(shù)據(jù)掛載到HP-
P4500上,看數(shù)據(jù)是否正確。如果數(shù)據(jù)不正確,那么再假設(shè)另一塊盤是掉線的,以此循環(huán)。雖然這種方案可行,但是由于
每次重組RAID生成數(shù)據(jù)的數(shù)據(jù)時間太長,并且準確性很低。
方案二:窮舉加校驗,還是和窮舉法一樣,假設(shè)某個磁盤是掉線的,踢掉磁盤后重組RAID,但不是生成全部的數(shù)據(jù),而是
只生成前面5G的數(shù)據(jù),因為HP-P4500內(nèi)部存儲的數(shù)據(jù)的索引表位圖位于RAID的前幾個G之內(nèi)(因為在這之前我們已經(jīng)研究
過HP-P4500的內(nèi)部存儲原理)。我們只需要查看這個索引表的位圖的信息是否正確就可以判斷此RAID是否正確。如果正確
那么生成此RAID的數(shù)據(jù)即可完成RAID的重組。
【實施方案】
采用第二種解決方案,經(jīng)過幾次測試很快就判斷出正確的RAID。連夜生成此RAID的數(shù)據(jù)。生成完數(shù)據(jù)后,將生成的數(shù)據(jù)和
第一組完好的RAID一同掛載到HP-P4500上。然后啟動存儲,上層的卷由不可用變的可用了。查看了最新的文件發(fā)現(xiàn)一切都
正常。
【數(shù)據(jù)恢復成功】
由于上層的卷直接可以用了,所以數(shù)據(jù)也都可見了,但是考慮到安全問題,我們還是將卷里的文件都拷貝出來,然后移交
給客戶。經(jīng)過漫長的底層分析,加上不斷的測試。終于在用戶要求的時間內(nèi)將數(shù)據(jù)恢復完成。整個恢復過程一共歷時兩天
。之所以能這么快恢復,還是在于我們之前研究過HP-P4500的存儲原理。知道了HP-P4500的存儲原理以后,關(guān)于它的所有
數(shù)據(jù)災(zāi)難都可以進行恢復。
IMG_0244.JPG (1.08 MB, 下載次數(shù): 145)
下載附件
2016-05-18 15:15 上傳
IMG_0040.JPG (1.19 MB, 下載次數(shù): 132)
下載附件
2016-05-18 15:14 上傳
|
|