亚洲av成人无遮挡网站在线观看,少妇性bbb搡bbb爽爽爽,亚洲av日韩精品久久久久久,兔费看少妇性l交大片免费,无码少妇一区二区三区

  免費(fèi)注冊 查看新帖 |

Chinaunix

  平臺 論壇 博客 文庫
最近訪問板塊 發(fā)新帖
查看: 9517 | 回復(fù): 5
打印 上一主題 下一主題

[容災(zāi)] 從銀監(jiān)會通報來推測寧夏銀行事故的技術(shù)原因 [復(fù)制鏈接]

論壇徽章:
1
辰龍
日期:2014-08-14 16:06:06
跳轉(zhuǎn)到指定樓層
1 [收藏(0)] [報告]
發(fā)表于 2014-08-09 00:48 |只看該作者 |倒序瀏覽
本帖最后由 mike1979 于 2014-08-09 00:53 編輯

銀監(jiān)會通報中涉及到的技術(shù)原因描述是“在季末結(jié)算業(yè)務(wù)量較大的情況下,因備份系統(tǒng)異常導(dǎo)致備份存儲磁盤讀寫處理嚴(yán)重延時,備份與主存儲數(shù)據(jù)不一致,在采取中斷數(shù)據(jù)備份錄像操作后,造成生產(chǎn)數(shù)據(jù)庫損壞并宕機(jī)”

這類通告大都含糊其辭,這份也不例外。盡量根據(jù)通告進(jìn)行分析,應(yīng)該有兩層意思:
1,業(yè)務(wù)量大,備份系統(tǒng)異常,導(dǎo)致備份的IO超時
2,中斷數(shù)據(jù)備份錄像操作,導(dǎo)致生產(chǎn)數(shù)據(jù)庫損壞
比較有意思的是“備份與主存儲數(shù)據(jù)不一致”,這句話的意思應(yīng)該是說LVM鏡像的兩個分支之間出現(xiàn)了數(shù)據(jù)不一致。那么是因為備份超時,導(dǎo)致數(shù)據(jù)不一致,還是因為中斷備份錄像操作導(dǎo)致數(shù)據(jù)不一致?

從公告看,似乎是前者。那么事情大概是這樣:季度末業(yè)務(wù)量大,IO壓力高,作為LVM Mirror的一個分支的CDP存儲性能抗不住了,拖累了整個系統(tǒng)。由于CDP上IO連續(xù)超時,AIX認(rèn)為CDP上的某些PV不可用了,標(biāo)記為stale pv不再訪問,所以主存儲和CDP上的數(shù)據(jù)不一致了。
可如果是這樣的話,應(yīng)該不會出現(xiàn)這么故障。CDP存儲被踢出去后,寫操作只要落地到主存儲就可以了,系統(tǒng)整體性能應(yīng)該上去了才對。至于CDP和主存儲數(shù)據(jù)不一致,那也沒關(guān)系,找個業(yè)務(wù)量小點(diǎn)的時間varyonvg,進(jìn)行數(shù)據(jù)同步就可以。當(dāng)然這個缺省是數(shù)據(jù)全同步,IO量會很大。
接下去看后面半段,為了盡可能的釋放性能給數(shù)據(jù)庫的IO操作,那么應(yīng)該停止CDP上的快照,尤其是那些還沒被AIX踢出去的PV上的快照?蛇@個操作也不會導(dǎo)致數(shù)據(jù)庫損壞阿。就算CDP上的數(shù)據(jù)損壞了,主存儲上的數(shù)據(jù)還是完好可用的。

如果從“造成生產(chǎn)數(shù)據(jù)庫損壞”這句話倒推,什么情況下會出現(xiàn)數(shù)據(jù)庫損壞?如果不考慮數(shù)據(jù)庫本身的原因,只從系統(tǒng)層面考慮。那么在LVM沒有預(yù)計到的情況下,LVM鏡像的兩個分支出現(xiàn)了數(shù)據(jù)不一致,這個情況會導(dǎo)致數(shù)據(jù)庫損壞。也就是說不是因為AIX將CDP上的PV踢出去導(dǎo)致LVM鏡像不一致,而是其它原因?qū)е碌摹?br /> 再進(jìn)一步倒推,是什么操作會導(dǎo)致LVM鏡像不一致?這個操作和“中斷數(shù)據(jù)備份錄像操作”有關(guān)聯(lián)么?如果這個錄像操作只是說備份(對于CDP來說就是快照了),那應(yīng)該是沒有關(guān)聯(lián)的。但是如果這個錄像操作是指恢復(fù)(快照reverse),那就很有可能了。快照reverse是把快照的源LUN回滾到某個時間點(diǎn),這個操作在存儲層面執(zhí)行,LVM是感知不到的。在LVM看來,就是LVM鏡像的兩個分支突然間就不一致了。
也就是說出于某個未知原因,有人在斷開CDP和主機(jī)的連接之前,就把CDP上的數(shù)據(jù)恢復(fù)到以前的某個時間點(diǎn),卻沒想到主存儲上的數(shù)據(jù)是沒法隨之恢復(fù)到那個時間點(diǎn)的,于是“備份與主存儲數(shù)據(jù)不一致”,“造成生產(chǎn)數(shù)據(jù)庫損壞并宕機(jī)”。

至于“因備份系統(tǒng)異常導(dǎo)致備份存儲磁盤讀寫處理嚴(yán)重延時”,這個和數(shù)據(jù)庫損壞應(yīng)該沒直接關(guān)系,但或許是促使他執(zhí)行恢復(fù)操作的某個直接或者間接原因。就像前面說的,CDP因為性能差,確實(shí)會拖累整個系統(tǒng)的IO性能,尤其是寫性能。但是最壞情況也就是AIX主動將CDP上的PV踢出去。這個動作LVM是知道的,它知道CDP上的PV不可用了,就不會去讀寫它。雖然數(shù)據(jù)不一致了,但是不會導(dǎo)致數(shù)據(jù)庫損壞。

那么為什么要把CDP上的數(shù)據(jù)恢復(fù)到以前的某個時間點(diǎn)呢?這個就不得而知了。是否和數(shù)據(jù)庫有關(guān)?比如碰到bug,數(shù)據(jù)庫怎么重起也起不來,就想“把數(shù)據(jù)庫恢復(fù)到第一次重起前的那個時間點(diǎn)應(yīng)該能解決問題”,于是就......

PS 附上兩招圖



論壇徽章:
5
CU大;照
日期:2013-09-18 15:16:55CU大;照
日期:2013-09-18 15:18:22CU大;照
日期:2013-09-18 15:18:432015年辭舊歲徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:49:45
2 [報告]
發(fā)表于 2014-08-10 12:25 |只看該作者
很高端啊!

論壇徽章:
1
2015年辭舊歲徽章
日期:2015-03-03 16:54:15
3 [報告]
發(fā)表于 2014-08-11 11:22 |只看該作者
reverse可能性很大

論壇徽章:
0
4 [報告]
發(fā)表于 2014-09-05 12:39 |只看該作者
ADG把,搞個CDP擴(kuò)容也麻煩,容災(zāi)切換也麻煩,反正是麻煩一大堆

論壇徽章:
0
5 [報告]
發(fā)表于 2014-09-24 15:12 |只看該作者
我只能說:1樓正解。  

論壇徽章:
0
6 [報告]
發(fā)表于 2014-10-07 08:23 |只看該作者
您需要登錄后才可以回帖 登錄 | 注冊

本版積分規(guī)則 發(fā)表回復(fù)

  

北京盛拓優(yōu)訊信息技術(shù)有限公司. 版權(quán)所有 京ICP備16024965號-6 北京市公安局海淀分局網(wǎng)監(jiān)中心備案編號:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年舉報專區(qū)
中國互聯(lián)網(wǎng)協(xié)會會員  聯(lián)系我們:huangweiwei@itpub.net
感謝所有關(guān)心和支持過ChinaUnix的朋友們 轉(zhuǎn)載本站內(nèi)容請注明原作者名及出處

清除 Cookies - ChinaUnix - Archiver - WAP - TOP