國外有一項(xiàng)針對800多家企業(yè)的CIO采訪調(diào)查,得出的結(jié)論:

“企業(yè)云生態(tài)系統(tǒng)規(guī)模和復(fù)雜性伴隨著日益擴(kuò)大的需求,與IT 資源管理能力之間的差距越來越大?!?/p>

被采訪的很多人對自己企業(yè)IT團(tuán)隊(duì)有效支持業(yè)務(wù)的能力感到擔(dān)憂,因?yàn)閭鹘y(tǒng)的監(jiān)控解決方案使他們的團(tuán)隊(duì)淹沒在數(shù)據(jù)和警報(bào)中。

就數(shù)據(jù)來看,平均而言團(tuán)隊(duì)每天從他們的監(jiān)控和管理工具中收到近3000個告警。面對如此多的告警,IT團(tuán)隊(duì)平均要花費(fèi)15%的可用時間來識別哪些告警需要關(guān)注,哪些告警是不相關(guān)的,這使得企業(yè)每年平均花費(fèi)150萬美元以上的管理費(fèi)用在這些事情上。

這可是個很嚴(yán)重的問題。

讓我們從熵開始說起

熵是一個科學(xué)概念,也是一種可測量的物理特性,最常與無序、隨機(jī)或不確定狀態(tài)相關(guān)聯(lián)。這個術(shù)語和概念被用于不同的領(lǐng)域,從最初被認(rèn)可的經(jīng)典熱力學(xué),到統(tǒng)計(jì)物理學(xué)中對自然的微觀描述,再到信息論的原理。

熵亦被用于計(jì)算一個系統(tǒng)中的失序現(xiàn)象,也就是計(jì)算該系統(tǒng)混亂的程度。熵是一個描述系統(tǒng)狀態(tài)的函數(shù),但是經(jīng)常用熵的參考值和變化量進(jìn)行分析比較,在不同的學(xué)科中也有引申出的更為具體的定義,是各領(lǐng)域十分重要的參量。

(圖片來自:中文百科)

在熱力學(xué)領(lǐng)域熵產(chǎn)生的原因,可以理解為能量轉(zhuǎn)換的時候,大部分能量會轉(zhuǎn)換成預(yù)先設(shè)定的狀態(tài),比如熱能變成機(jī)械能、電能變成光能。但是,還有一部分能量會生成新的狀態(tài),這部分能量就可以看作是熵??傊?,能量轉(zhuǎn)換會創(chuàng)造出新的狀態(tài),熵就是進(jìn)入這些狀態(tài)的能量。

社會進(jìn)步都是處理熵的過程

回顧下人類發(fā)展的歷史軌跡不難發(fā)現(xiàn),人類社會的重大變革都是伴隨著技術(shù)的進(jìn)步,新技術(shù)使人類獲得了新的力量(包括新的知識)用于解決原有的熵問題。

告警其實(shí)也是一種熵

我們把IT系統(tǒng)環(huán)境初始化的狀態(tài)假設(shè)成是一個封閉狀態(tài),如果此時沒有任何外界的能量變化例如:停電、斷網(wǎng),或者是任何來自外部的輸入輸出(例如:系統(tǒng)訪問量等)變化時,我們有理由認(rèn)為此時的環(huán)境將一直會是個穩(wěn)定狀態(tài)。

但是,當(dāng)外界因素發(fā)生變化時,這個系統(tǒng)就會因改變狀態(tài)而產(chǎn)生熵,熵多則代表產(chǎn)生的新狀態(tài)多,可能性表現(xiàn)增多,系統(tǒng)將趨向混亂。產(chǎn)生的熵少則代表產(chǎn)生的新狀態(tài)少,可能性表現(xiàn)較少,系統(tǒng)趨向穩(wěn)定,相對來說就比較有秩序??梢哉f狀態(tài)變化會讓系統(tǒng)的混亂度增加,熵此時可以用來描述系統(tǒng)的混亂度,在系統(tǒng)里可以表現(xiàn)為告警的數(shù)量。

(圖片來自:比特流技術(shù))

在復(fù)雜的IT環(huán)境中,這個影響系統(tǒng)的外界因素是成倍數(shù)在增加的。而傳統(tǒng)的監(jiān)控工具并不是為了處理在高動態(tài)、復(fù)雜網(wǎng)絡(luò)規(guī)模的企業(yè)云中運(yùn)行的應(yīng)用程序所產(chǎn)生的大量、快速和多樣化的數(shù)據(jù)而設(shè)計(jì)的,這些工具通常是孤立的,缺乏對整個技術(shù)棧中發(fā)生的事件的更廣泛的了解。因此,它們才會每天向IT團(tuán)隊(duì)發(fā)出數(shù)百甚至數(shù)千條警報(bào)。

不處理熵會怎樣?

在熱力學(xué)系統(tǒng)里轉(zhuǎn)換的能量越大,創(chuàng)造出來的新狀態(tài)就會越多,所以高能量系統(tǒng)不如低能量的系統(tǒng)來得穩(wěn)定,高壓鍋不如普通鍋安全就是這個道理。

熱力學(xué)第二定律告訴我們,如果任由產(chǎn)生熵的系統(tǒng)自行運(yùn)行下去最終都會趨向混亂度最大的狀態(tài),除非外部注入能量來處理熵。延伸到生活中來,熵的存在可以證明,如果不施加外力影響,事物永遠(yuǎn)向著更混亂的狀態(tài)發(fā)展。比如,房間如果沒人打掃,只會越來越亂,不可能越來越干凈。

(圖片來自互聯(lián)網(wǎng)用戶分享)

這只是房間的干凈與否問題,如果換成前邊說的高壓鍋,在加熱過程中泄壓閥壞了且你還不知道的情況下又會發(fā)生什么?

換到信息系統(tǒng)也一樣,有著高并發(fā)高訪問,復(fù)雜的架構(gòu)、技術(shù)?;虼a邏輯特點(diǎn)的系統(tǒng)越容易出現(xiàn)問題。這些問題會由我們的監(jiān)控工具“發(fā)現(xiàn)”,然后轉(zhuǎn)換成告警發(fā)給IT人員,如果關(guān)鍵問題的告警沒有被及時處理,那結(jié)果可能就是系統(tǒng)最后崩潰掉……

我們迫切需要新的手段來幫助自己應(yīng)對這種復(fù)雜的情況。

AI可以幫我們處理告警這種熵

多源混合環(huán)境的數(shù)據(jù)自動整合

對來自不同平臺,不同資源的告警能夠進(jìn)行數(shù)據(jù)的自動整合,并以統(tǒng)一的報(bào)表形式進(jìn)行展現(xiàn),這能夠使用戶不再受限于不同數(shù)據(jù)格式帶來的可觀測性障礙。

基于機(jī)器學(xué)習(xí)技術(shù)的場景化告警觸發(fā)

在人工智能的幫助下,數(shù)據(jù)會在展示給用戶之前進(jìn)行預(yù)處理和初步分析——去除原始數(shù)據(jù)中通常會出現(xiàn)的噪音和混亂。AI識別的不再是發(fā)生的特定的單個事件或一系列事件,而是故障或攻擊的整體模式。神經(jīng)網(wǎng)絡(luò)可以了解 IT 基礎(chǔ)設(shè)施是如何適應(yīng)日常工作的,不是發(fā)現(xiàn)惡意活動的跡象,而是確保操作可以檢測到系統(tǒng)內(nèi)的異常,這實(shí)質(zhì)上使其與基于固定觸發(fā)規(guī)則的系統(tǒng)完全相反。

聚合以避免告警風(fēng)暴及告警疲勞

AI能夠幫助我們對警報(bào)事件進(jìn)行聚類形成故障,確定其嚴(yán)重性和影響并決定是否應(yīng)將一個或多個故障上報(bào)以供IT人員處理。這個過程目前在許多企業(yè)中都是手動完成的,這在不久的將來會變成是一種不可接受的方法。

此種方式能夠避免因海量不準(zhǔn)確告警帶來的風(fēng)暴效應(yīng),進(jìn)而避免因告警準(zhǔn)確度低及數(shù)量龐大帶來的告警疲勞。

總結(jié)

任何偉大的技術(shù)都是有它的雙面性,AI的出現(xiàn)從大的范圍看解決的或許是人類做為生物體的局限性,包括疾病、衰老、死亡。智能化的機(jī)器將不再存在實(shí)際中的生產(chǎn)力上限,甚至于思考能力的上限。

借助于它們的力量人類將第一次無限接近于神,我知道這聽起來有些可怕,但這很可能成為事實(shí)。就如以色列學(xué)者尤瓦爾·赫拉利在《未來簡史》一書中的感嘆:

“包括人工智能在內(nèi)的現(xiàn)代科技已經(jīng)讓人類擁有了超過遠(yuǎn)古諸神的力量,我們的后代勢必將會擁有神一樣的創(chuàng)造力和毀滅力?!?/p>

話扯遠(yuǎn)了,總結(jié)下來使用AI來提升處理告警的能力可以說是百利而無一害的,也是值得每一個企業(yè)應(yīng)該大膽去嘗試的方案。

  • 一些數(shù)字化企業(yè),都有自己的應(yīng)用程序,而這些應(yīng)用是與企業(yè)服務(wù)質(zhì)量息息相關(guān)的。apm應(yīng)用性能管理產(chǎn)品?帶來了全新的網(wǎng)絡(luò)和應(yīng)用程序管理方式,給數(shù)字化企業(yè)提供了有力的保障。那么,應(yīng)當(dāng)如何選擇這類管理產(chǎn)品呢?

    2023-08-22

  • 網(wǎng)絡(luò)性能監(jiān)控行業(yè)前景?備受關(guān)注,隨著互聯(lián)網(wǎng)的不斷發(fā)展和技術(shù)的日益進(jìn)步,對于網(wǎng)絡(luò)性能監(jiān)控與管理的需求也在逐漸增加。這一行業(yè)正日益成為企業(yè)和組織關(guān)注的重點(diǎn),因?yàn)榉€(wěn)定、高效的網(wǎng)絡(luò)對于現(xiàn)代業(yè)務(wù)運(yùn)作至關(guān)重要。

    2024-01-08

  • 隨著小程序的廣泛應(yīng)用和快速發(fā)展,小程序性能成為影響用戶體驗(yàn)和商業(yè)成功的關(guān)鍵因素之一。為了幫助開發(fā)人員和企業(yè)更好地了解和優(yōu)化小程序的性能,我們引入了一款創(chuàng)新的小程序性能監(jiān)控工具,通過實(shí)時監(jiān)測和分析,幫助您全面掌控小程序的性能狀況,提供更好的用戶體驗(yàn)。

    2023-06-01

  • 可視化運(yùn)維是指通過圖形化的展示方式,對系統(tǒng)的監(jiān)控、運(yùn)維、分析等工作進(jìn)行可視化處理,方便管理員或者運(yùn)維人員進(jìn)行系統(tǒng)性能分析、故障診斷和處理等操作??梢暬\(yùn)維系統(tǒng)通常通過可視化的儀表盤、圖表、日志等形式呈現(xiàn)數(shù)據(jù),從而使系統(tǒng)運(yùn)維人員可以直觀、快速地了解系統(tǒng)的狀態(tài),發(fā)現(xiàn)問題并進(jìn)行處理。

    2023-03-20

  • 壓測也叫壓力測試或性能測試,是軟件開發(fā)周期中常見的環(huán)節(jié)。往往很多時候我們的壓測方案都是有問題的,本文將具體闡述怎么做壓測,以及如何正確的做壓測。

    2022-03-08