智能運(yùn)維在各行各業(yè)的應(yīng)用情況如何?
時間:2022-12-01
關(guān)鍵字:智能運(yùn)維,運(yùn)維自動化
智慧運(yùn)維作為當(dāng)前備受關(guān)注的技術(shù)領(lǐng)域,在Gartner的報告中也給出預(yù)測:2020年,智慧運(yùn)維會在一半以上的企業(yè)中落地并形成生產(chǎn)力。
在高利潤、低成本的驅(qū)動下,智能運(yùn)維也成為各行各業(yè)研究的熱點,互聯(lián)網(wǎng)公司、金融機(jī)構(gòu)、IT技術(shù)公司都紛紛走在了智能運(yùn)維研究和應(yīng)用的前列。
(1)科研機(jī)構(gòu)
科研機(jī)構(gòu)一向是新技術(shù)革命的領(lǐng)頭羊。在智能運(yùn)維研究領(lǐng)域,國內(nèi)外科研機(jī)構(gòu)不僅有先進(jìn)的科研成果,也與工業(yè)界展開密切合作,從算法層面上支撐了智能運(yùn)維的落地與發(fā)展。
卡內(nèi)基梅隆大學(xué)與Netflix公司合作,在網(wǎng)絡(luò)視頻運(yùn)維領(lǐng)域提出并應(yīng)用多種人工智能方法:利用不同數(shù)據(jù)分析及統(tǒng)計分析方法,靈活使用可視化、相關(guān)分析、信息熵增益等工具,將雜亂無章數(shù)據(jù)轉(zhuǎn)化為直觀清晰信息,從而分析海量數(shù)據(jù)背后視頻體驗不佳的規(guī)律和瓶頸。
雙方共同設(shè)計了視頻傳輸智能優(yōu)化方案,可根據(jù)客戶的網(wǎng)絡(luò)狀態(tài),動態(tài)地優(yōu)化視頻傳輸;通過決策樹模型建立用戶參與度的預(yù)測模型,指導(dǎo)關(guān)鍵性能指標(biāo)的優(yōu)化策略,改善用戶的體驗質(zhì)量。
南京大學(xué)周志華教授團(tuán)隊專注于機(jī)器學(xué)習(xí)算法的研究,所提出的isolation forest孤立森林算法可用于挖掘異常數(shù)據(jù),檢測和分析異常。
清華大學(xué)NetMan智能運(yùn)維實驗室則專注于異常檢測、分析與預(yù)測,提出了多種算法和工具。
(2)互聯(lián)網(wǎng)行業(yè)
阿里巴巴研發(fā)了智能故障管理平臺,以業(yè)務(wù)為導(dǎo)向,實現(xiàn)了基于機(jī)器學(xué)習(xí)的業(yè)務(wù)異常檢測,準(zhǔn)確及時發(fā)現(xiàn)故障。通過時間序列分析和機(jī)器學(xué)習(xí),對未來一段時間的業(yè)務(wù)指標(biāo)趨勢進(jìn)行預(yù)測。
針對業(yè)務(wù)異常時間,自動調(diào)用各類型AP接口實現(xiàn)一鍵切換,快速恢復(fù)業(yè)務(wù)異常。并針對業(yè)務(wù)異常事件自動拆解相關(guān)維度,逐層剝離定位故障原因。
目前該平臺已經(jīng)在阿里云上成功實踐,故障發(fā)現(xiàn)準(zhǔn)確率、故障發(fā)現(xiàn)召回率分別提升到80%和90%,每周節(jié)省因為誤報而花費(fèi)的操作時間約為29小時。
百度實現(xiàn)了基于智能流量調(diào)度的單機(jī)房故障自愈能力,將止損過程劃分為統(tǒng)一的感知、決策、執(zhí)行三個階段,通過策略框架支持智能化異常檢測、策略編排、流量調(diào)度,實現(xiàn)了單機(jī)房故障自愈能力。
京東金融實現(xiàn)了基于網(wǎng)絡(luò)拓?fù)涞母锤婢治觯Y(jié)合調(diào)用鏈,通過時間相關(guān)性、權(quán)重、關(guān)聯(lián)規(guī)則算法、神經(jīng)網(wǎng)絡(luò)算法等,將告警分類篩選,快速找到告警根源,從而縮短故障排查及恢復(fù)時間。
京東金融還在其云計算數(shù)據(jù)中心應(yīng)用了智能巡檢機(jī)器人,提升了機(jī)房及數(shù)據(jù)中心的巡檢效率和智能化管理水平,避免人工的錯檢和漏檢,對巡檢數(shù)據(jù)進(jìn)行數(shù)據(jù)化管理和高效利用。
騰訊在其織云監(jiān)控平臺中建設(shè)了基于機(jī)器學(xué)習(xí)的時間序列異常檢測方案,在百萬條基于時間序列的日志信息中,以少量的時間實現(xiàn)了異常檢測。
(3)金融行業(yè)
交通銀行通過數(shù)據(jù)中心運(yùn)維大數(shù)據(jù)平臺的建設(shè),將各類日志、告警等運(yùn)維數(shù)據(jù)統(tǒng)一集中存儲。通過關(guān)聯(lián)分析、建模預(yù)測等方式發(fā)現(xiàn)日志、告警信息中潛在聯(lián)系,并建設(shè)監(jiān)控歷史數(shù)據(jù)分析、監(jiān)控告警智能分析以及日志智能檢索分析等大數(shù)據(jù)運(yùn)維應(yīng)用場景,實現(xiàn)了事前智能預(yù)警、事后快速定位故障。
中國銀行初步形成了“運(yùn)維大數(shù)據(jù)倉庫”、“運(yùn)維數(shù)據(jù)分析平臺”的計算框架,對系統(tǒng)日志、應(yīng)用日志、監(jiān)控數(shù)據(jù)和網(wǎng)絡(luò)鏡像包等全量數(shù)據(jù)進(jìn)行集中存放和處理,并在異常檢測、故障快速定位、系統(tǒng)容量預(yù)估和動態(tài)調(diào)配等多個場景中應(yīng)用。
太平洋保險在智能運(yùn)維方面實現(xiàn)了告警收斂,將多個告警做匯聚合并和主源分析,還開展了云腦項目以實現(xiàn)業(yè)務(wù)趨勢預(yù)測和容量管理功能,還開發(fā)點點2.0 APP,實現(xiàn)風(fēng)險監(jiān)測和智能交互等功能。
陽光保險利用大數(shù)據(jù)和機(jī)器學(xué)習(xí),實現(xiàn)了智能巡檢、報警聚合、故障自愈及故障避免、自動發(fā)版與止損等多項功能。招商銀行在性能容量評估、故障定位與診斷方面采用智能運(yùn)維的方案,以應(yīng)對業(yè)務(wù)高峰的需求。
上海銀行張江數(shù)據(jù)中心啟用了智能巡檢機(jī)器人,對設(shè)備運(yùn)行狀態(tài)、機(jī)房環(huán)境、機(jī)柜微環(huán)境實時監(jiān)測,保證數(shù)據(jù)中心狀態(tài)實時可視、可控及數(shù)據(jù)的準(zhǔn)確性。