- 論壇徽章:
- 0
|
本帖最后由 jiang_box 于 2014-04-27 22:17 編輯
概述
當(dāng)前,在銀行為客戶所提供的各類金融服務(wù)中,有很大的比例需要依托IT系統(tǒng)實(shí)現(xiàn),因此銀行數(shù)據(jù)中心的穩(wěn)定可靠運(yùn)行,是銀行能否為客戶提供優(yōu)質(zhì)服務(wù)的基礎(chǔ)保障。對(duì)于如何實(shí)現(xiàn)數(shù)據(jù)中心的穩(wěn)定可靠運(yùn)行,所涉及到的技術(shù)與管理環(huán)節(jié)眾多,在此,僅討論銀行數(shù)據(jù)中心運(yùn)行監(jiān)測(cè)體系的建設(shè)與運(yùn)用。
何為運(yùn)行監(jiān)測(cè)體系
運(yùn)行監(jiān)測(cè)體系,是指由相關(guān)專業(yè)崗位的人員、被監(jiān)測(cè)應(yīng)用系統(tǒng)對(duì)象信息、衡量對(duì)象各組件工作狀態(tài)KPI、各類策略監(jiān)測(cè)采集所需工具、監(jiān)測(cè)數(shù)據(jù)處理與分析手段、相關(guān)維護(hù)與運(yùn)用工作流程等構(gòu)成的一個(gè)功能體系。
應(yīng)用系統(tǒng)包括什么
運(yùn)行監(jiān)測(cè)體系所監(jiān)測(cè)的對(duì)象,是應(yīng)用系統(tǒng)整體構(gòu)成的所有組成環(huán)節(jié),而不僅僅是應(yīng)用程序,還應(yīng)包括其運(yùn)行所依賴的存儲(chǔ)環(huán)境、網(wǎng)絡(luò)環(huán)境、服務(wù)器資源、各類系統(tǒng)軟件、外部鏈路資源、維護(hù)操作任務(wù)、內(nèi)部配置數(shù)據(jù)、系統(tǒng)間會(huì)話、業(yè)務(wù)數(shù)據(jù)交換任務(wù)等組件,因此,應(yīng)用系統(tǒng)整體運(yùn)行監(jiān)測(cè)KPI體系,需針對(duì)應(yīng)用整體構(gòu)成的各組件進(jìn)行統(tǒng)一設(shè)計(jì),并通過一系列指標(biāo),去衡量各組件的運(yùn)行是否正常。
如何評(píng)價(jià)監(jiān)測(cè)效能
如何評(píng)價(jià)一套運(yùn)行監(jiān)測(cè)體系是否有效非常重要,因?yàn)橥ㄟ^適當(dāng)?shù)脑u(píng)價(jià),能夠發(fā)現(xiàn)這個(gè)體系中存在的問題,并制定有針對(duì)性的改進(jìn)計(jì)劃,以此不斷提高運(yùn)行監(jiān)測(cè)能力。例如,從運(yùn)行監(jiān)測(cè)的結(jié)果維度評(píng)價(jià),最直接的指標(biāo)就是監(jiān)測(cè)報(bào)警的有效性與準(zhǔn)確性,有效性是指在所發(fā)生的各類運(yùn)行故障中,監(jiān)測(cè)系統(tǒng)能夠及時(shí)預(yù)報(bào)、發(fā)現(xiàn)的比率,例如,能夠發(fā)現(xiàn)95%以上的運(yùn)行故障;準(zhǔn)確性是指報(bào)警系統(tǒng)的誤報(bào)率,例如,平均每3條關(guān)鍵報(bào)警即能發(fā)現(xiàn)一次真實(shí)故障。通過對(duì)于上述兩項(xiàng)指標(biāo),以及指標(biāo)達(dá)成情況的詳細(xì)分析,發(fā)現(xiàn)問題并改進(jìn)策略,就能夠不斷提升監(jiān)測(cè)系統(tǒng)的整體有效性。
如何建設(shè)并運(yùn)用一套有效的運(yùn)行監(jiān)測(cè)體系,為銀行數(shù)據(jù)中心的安全運(yùn)行提供基礎(chǔ)技術(shù)保障,是目前運(yùn)維管理層所面臨的課題之一?偨Y(jié)近幾年專注于運(yùn)維及監(jiān)控管理的一些實(shí)踐經(jīng)驗(yàn),將按照規(guī)劃、體系、技術(shù)、運(yùn)用,四個(gè)不同緯度進(jìn)行簡(jiǎn)要介紹。
規(guī)劃篇
雖然已經(jīng)有較多的網(wǎng)管監(jiān)控、系統(tǒng)監(jiān)控項(xiàng)目在各類數(shù)據(jù)中心實(shí)施,但是如何針對(duì)數(shù)據(jù)中心的整體進(jìn)行監(jiān)測(cè),并將之建設(shè)成為一套能夠不斷自我完善、能夠?yàn)檫\(yùn)維管理提供支持的體系,是當(dāng)前金融行業(yè)數(shù)據(jù)中心面臨的運(yùn)維管理難題,要解決這一難題,首先需要理清思路、識(shí)別要點(diǎn)、有效規(guī)劃,談到運(yùn)行監(jiān)測(cè)體系的建設(shè)規(guī)劃,將分為識(shí)別與認(rèn)知、評(píng)估與測(cè)量、采集與處理、展現(xiàn)與運(yùn)用,四個(gè)方面進(jìn)行簡(jiǎn)述:
識(shí)別與認(rèn)知:所謂識(shí)別,是指能夠以IT系統(tǒng)對(duì)外服務(wù)為線索,進(jìn)行所有技術(shù)層面及維度的梳理與確認(rèn),不僅僅將“可見”的各類構(gòu)成組件納入監(jiān)測(cè)范圍,如服務(wù)器、數(shù)據(jù)庫實(shí)例等,還應(yīng)將“不可見”的組件納入監(jiān)測(cè)范圍,如交易鏈路等,在全面識(shí)別監(jiān)測(cè)對(duì)象信息后,就是有效的認(rèn)知,也就是針對(duì)各類監(jiān)控對(duì)象構(gòu)成組件,其運(yùn)行特點(diǎn)、關(guān)鍵狀態(tài)是什么,為后續(xù)工作奠定關(guān)鍵的知識(shí)基礎(chǔ)。
評(píng)估與測(cè)量:對(duì)于監(jiān)測(cè)對(duì)象進(jìn)行有效識(shí)別與認(rèn)知后,就是針對(duì)各類IT運(yùn)行組件,如何評(píng)估與測(cè)量,評(píng)估是指應(yīng)該以那些KPI、數(shù)據(jù)去判斷某一IT組件運(yùn)行是否正常、是否存在隱患、是否滿足運(yùn)行容量需求等,在具備了評(píng)估策略后,就要解決測(cè)量的問題,也就是以何種方法去測(cè)量才是有效的,例如,是采取抽樣統(tǒng)計(jì)法,還是閥值判斷法等。
采集與處理:在確定了測(cè)量方法后,就是根據(jù)系統(tǒng)運(yùn)行實(shí)際環(huán)境等因素,設(shè)計(jì)可行的監(jiān)測(cè)數(shù)據(jù)采集手段,在確保生產(chǎn)系統(tǒng)安全穩(wěn)定運(yùn)行的前提下,能夠盡量獲取實(shí)時(shí)、全面的測(cè)量數(shù)據(jù),并通過固定的邏輯對(duì)于采集數(shù)據(jù)進(jìn)行處理,以便后續(xù)的處理與分析,例如,針對(duì)采集測(cè)量進(jìn)行統(tǒng)一編碼,在采集數(shù)據(jù)后進(jìn)行,對(duì)于數(shù)據(jù)進(jìn)行“貼標(biāo)簽”處理,這樣,才能做監(jiān)測(cè)數(shù)據(jù)的二次判斷與分析,解決監(jiān)控報(bào)警的診斷與定位問題。
運(yùn)用與改進(jìn):對(duì)于監(jiān)測(cè)數(shù)據(jù)進(jìn)行有效處理后,就是有針對(duì)性的運(yùn)用,也針對(duì)一線值守人員、二線技術(shù)人員、技術(shù)專家、事件經(jīng)理、運(yùn)維決策人員的不同工作目標(biāo),需要分別展現(xiàn)哪些數(shù)據(jù)、結(jié)果,同時(shí),還需要具備監(jiān)測(cè)數(shù)據(jù)運(yùn)用結(jié)果日常分析的機(jī)制,以便發(fā)現(xiàn)整體監(jiān)測(cè)體系存在漏洞,并設(shè)計(jì)優(yōu)化方案,不斷查缺補(bǔ)漏,改進(jìn)監(jiān)測(cè)體系。
體系篇
運(yùn)行監(jiān)測(cè)體系的構(gòu)成,是以有效的人員崗位分工與合作為主體,輔助以適用的工具、有效的知識(shí)及規(guī)范,形成發(fā)現(xiàn)問題、改進(jìn)問題的不斷自我完善機(jī)制,如下圖所示:
在上述運(yùn)行監(jiān)測(cè)體系圖示中,主要的崗位分工及工作過程要點(diǎn)如下:
(圖示一)運(yùn)行監(jiān)測(cè)及技術(shù)支持管理體系.jpg (89.44 KB, 下載次數(shù): 457)
下載附件
2014-04-27 22:05 上傳
一線值守人員按操作規(guī)程及時(shí)處理各類監(jiān)測(cè)數(shù)據(jù),并詳細(xì)跟蹤、記錄處理過程;
監(jiān)控管理人員跟蹤并分析各類報(bào)警數(shù)據(jù)的有效性,發(fā)現(xiàn)問題并設(shè)計(jì)優(yōu)化策略;
監(jiān)控技術(shù)人員按需求開發(fā)各類監(jiān)測(cè)工具及手段,維護(hù)監(jiān)控資產(chǎn)信息,并確保監(jiān)控工具及功能能夠被有效地交付到一線值守人員、二線技術(shù)人員等崗位;
二線技術(shù)人員及時(shí)響應(yīng)并處置報(bào)警,并根據(jù)實(shí)際使用效果,及時(shí)提出監(jiān)控優(yōu)化需求,同時(shí)針對(duì)各類運(yùn)行問題與隱患,不斷完善相關(guān)技術(shù)規(guī)范,避免同類問題的反復(fù)發(fā)生;
運(yùn)維質(zhì)量管理人員,應(yīng)采集各類監(jiān)測(cè)與運(yùn)行數(shù)據(jù),形成常規(guī)分析機(jī)制,及時(shí)通報(bào)當(dāng)前關(guān)鍵問題、工作優(yōu)化建議,推動(dòng)整個(gè)體系的不斷優(yōu)化,消除各類技術(shù)與工作隱患;
技術(shù)篇
技術(shù)篇:技術(shù)整體架構(gòu)、采集技術(shù)、處理技術(shù)、展現(xiàn)技術(shù)、自動(dòng)化技術(shù)
光運(yùn)行監(jiān)測(cè)體系,最終離不開相關(guān)技術(shù)的研發(fā)與運(yùn)用,以及各類工具及管理平臺(tái)的實(shí)際落實(shí),
有效的運(yùn)行監(jiān)測(cè)體系,最終離不開相關(guān)技術(shù)平臺(tái)的支撐,而要搭建這一有效的運(yùn)行監(jiān)測(cè)技術(shù)平臺(tái),首先要解決如下幾個(gè)技術(shù)層面的關(guān)鍵問題:
如何配置整體技術(shù)架構(gòu):監(jiān)控整體技術(shù)架構(gòu)應(yīng)包括監(jiān)測(cè)數(shù)據(jù)采集層、專業(yè)監(jiān)控工具功能層、監(jiān)測(cè)數(shù)據(jù)快速處理層、監(jiān)測(cè)數(shù)據(jù)分析展現(xiàn)與運(yùn)用層,形成對(duì)于監(jiān)測(cè)數(shù)據(jù)的完成處理流程,滿足控制整體生產(chǎn)環(huán)境監(jiān)控部署、從監(jiān)測(cè)數(shù)據(jù)中發(fā)現(xiàn)問題的技術(shù)需求:
如何確保數(shù)據(jù)有效采集:對(duì)于生產(chǎn)環(huán)境中各類運(yùn)行數(shù)據(jù)的采集,首先要盡量規(guī)避對(duì)于生產(chǎn)系統(tǒng)的直接影響,其次是保證數(shù)據(jù)的實(shí)時(shí)性與準(zhǔn)確性,最后是對(duì)于原始監(jiān)測(cè)消息的準(zhǔn)確加工與判斷,最終形成有效的監(jiān)控采集數(shù)據(jù)。
如何快速確認(rèn)與定位:當(dāng)獲取到監(jiān)控報(bào)警后,首先要解決的是確認(rèn)其有效性,也就是是否真的發(fā)生了生產(chǎn)故障,其次是針對(duì)已發(fā)生的生產(chǎn)故障,按照資產(chǎn)配置關(guān)系及技術(shù)邏輯,進(jìn)行定位分析,再次是進(jìn)行故障原因診斷,并進(jìn)行有針對(duì)性的處置與驗(yàn)證;因此,在監(jiān)測(cè)體系的技術(shù)環(huán)節(jié)中,需要解決監(jiān)控報(bào)警消息的有效性自動(dòng)化確認(rèn)、故障層面自動(dòng)化定位兩個(gè)關(guān)鍵技術(shù)問題,才能保證監(jiān)控報(bào)警的有效與準(zhǔn)確,為后續(xù)處置提供精確導(dǎo)航。
(圖示二)監(jiān)控標(biāo)準(zhǔn)化與自動(dòng)化實(shí)現(xiàn)原理.png (108.64 KB, 下載次數(shù): 460)
下載附件
2014-04-27 22:07 上傳
如何有效展現(xiàn)與運(yùn)用:對(duì)于有效的監(jiān)控報(bào)警數(shù)據(jù)與消息,應(yīng)按需展現(xiàn)與運(yùn)用,分別針對(duì)值守人員、技術(shù)人員、管理人員的不同工作目標(biāo),提供不同的視圖與界面,因此,需要解決監(jiān)控?cái)?shù)據(jù)的快速展現(xiàn)與靈活定制問題,解決此類問題的關(guān)鍵,就是對(duì)于數(shù)據(jù)的有效預(yù)處理與分布式計(jì)算,目前,海量非結(jié)構(gòu)化數(shù)據(jù)采集與處理技術(shù),非常適用于解決此類問題。
運(yùn)用篇
對(duì)于運(yùn)行監(jiān)測(cè)體系的有效運(yùn)用,是建設(shè)并不斷維護(hù)這一體系的最終目標(biāo),在數(shù)據(jù)中心運(yùn)維管理工作之中,運(yùn)行監(jiān)測(cè)體系應(yīng)該在如下方面發(fā)揮主要的作用:
運(yùn)行事件管理前移:通過不斷完善運(yùn)行監(jiān)測(cè)體系,應(yīng)該在事件發(fā)生的征兆階段、隱患階段發(fā)現(xiàn)相關(guān)線索,并建立長效工作機(jī)制,跟蹤各類報(bào)警的處理結(jié)果,發(fā)現(xiàn)需要改進(jìn)之處,不斷優(yōu)化改進(jìn)監(jiān)控策略,通過此類工作的不斷往復(fù),提升監(jiān)控預(yù)警能力,將運(yùn)行事件的管理與控制,前移到預(yù)警階段,以此減小故障對(duì)于生產(chǎn)的影響;
故障根源問題分析:由于生產(chǎn)環(huán)境的技術(shù)復(fù)雜性,一定會(huì)發(fā)生成因復(fù)雜的故障,并很難進(jìn)行根源分析,為消除此類隱患,應(yīng)該通過監(jiān)控策略的不斷完善,在故障現(xiàn)象發(fā)生的同一時(shí)刻,按照技術(shù)邏輯與經(jīng)驗(yàn),同步抓取現(xiàn)場(chǎng)數(shù)據(jù),為根源分析提供詳盡的現(xiàn)場(chǎng)資料;
系統(tǒng)運(yùn)行容量規(guī)劃:目前生產(chǎn)系統(tǒng)的構(gòu)成環(huán)節(jié)多關(guān)聯(lián)性廣,因此對(duì)于生產(chǎn)系統(tǒng)運(yùn)行容量的預(yù)估與管理,需要實(shí)時(shí)采集各技術(shù)層面數(shù)據(jù),并能夠進(jìn)行有效整合,發(fā)現(xiàn)各個(gè)環(huán)節(jié)運(yùn)行數(shù)據(jù)之間的變化聯(lián)動(dòng)性、放大系數(shù)等規(guī)律,然后根據(jù)業(yè)務(wù)請(qǐng)求的變化情況,去評(píng)估系統(tǒng)整體容量變化規(guī)律、系統(tǒng)容量瓶頸等關(guān)注點(diǎn),為達(dá)成這一目標(biāo),也需要通過有效的監(jiān)測(cè)體系去采集相關(guān)數(shù)據(jù);
系統(tǒng)開發(fā)非功能需求:在監(jiān)測(cè)體系不斷評(píng)估與優(yōu)化的過程中,一方面,能夠發(fā)現(xiàn)生產(chǎn)系統(tǒng)自身存在的運(yùn)行隱患,并幫助技術(shù)部門進(jìn)行優(yōu)化,另一方面,也需要針對(duì)系統(tǒng)的可被監(jiān)測(cè)性,提出系統(tǒng)開發(fā)的非功能性需求,從源頭解決系統(tǒng)運(yùn)行的可被監(jiān)測(cè)與控制性,加強(qiáng)系統(tǒng)自身的運(yùn)行健壯度,例如:應(yīng)用系統(tǒng)日志的標(biāo)準(zhǔn)化、業(yè)務(wù)請(qǐng)求標(biāo)識(shí)的統(tǒng)一規(guī)劃等;
客戶交易動(dòng)態(tài)數(shù)據(jù)分析:在運(yùn)行監(jiān)測(cè)體系工作過程中,能夠通過海量非結(jié)構(gòu)化日志采集、網(wǎng)絡(luò)報(bào)文鏡像分析等手段,獲取客戶交易行為的動(dòng)態(tài)數(shù)據(jù),一方面能夠及時(shí)發(fā)現(xiàn)客戶交易過程中的各類故障及異常現(xiàn)象,另一方面,也能夠分析客戶的交易趨勢(shì)及喜好等,為業(yè)務(wù)流程優(yōu)化、應(yīng)用系統(tǒng)功能優(yōu)化等提供分析數(shù)據(jù),為數(shù)據(jù)中心從運(yùn)維階段,發(fā)展到運(yùn)營階段提供技術(shù)基礎(chǔ);
隨著信息技術(shù)的不斷發(fā)展,銀行數(shù)據(jù)中心的技術(shù)環(huán)境也在不斷變化,因此,配套的運(yùn)行監(jiān)測(cè)體系,無論在管理思路、崗位流程、技術(shù)手段等方面,也是在不斷發(fā)展與變化,為確保這一體系始終能夠?yàn)榘踩\(yùn)營提供有效支撐,最核心的管理思路就是要建立一套動(dòng)態(tài)維護(hù)的監(jiān)控檔案,將監(jiān)控對(duì)象、監(jiān)控KPI、監(jiān)控策略進(jìn)行統(tǒng)一管理,這里,監(jiān)控對(duì)象類似于構(gòu)成我們?nèi)梭w的各類器官、神經(jīng)、組織、思維、能力等,監(jiān)控KPI就是衡量上述對(duì)象的指標(biāo)及方法,監(jiān)控策略是實(shí)現(xiàn)采集監(jiān)控KPI的監(jiān)控手段,并根據(jù)應(yīng)用系統(tǒng)整體構(gòu)成的關(guān)系,針對(duì)監(jiān)控策略進(jìn)行統(tǒng)一編碼,以便進(jìn)行報(bào)警消息的深入分析與診斷。
圖示三:應(yīng)用系統(tǒng)整體運(yùn)行監(jiān)測(cè)檔案設(shè)計(jì)思路
(圖示三)應(yīng)用系統(tǒng)整體運(yùn)行監(jiān)測(cè)檔案設(shè)計(jì)思路.png (96.5 KB, 下載次數(shù): 406)
下載附件
2014-04-27 22:09 上傳
|
|