基調(diào)聽(tīng)云北冥

AI實(shí)現(xiàn)告警收斂,場(chǎng)景化告警觸發(fā)避免告警風(fēng)暴

AI實(shí)現(xiàn)告警收斂,場(chǎng)景化告警觸發(fā)避免告警風(fēng)暴

基調(diào)聽(tīng)云北冥統(tǒng)一告警管理平臺(tái),利用AI技術(shù)實(shí)現(xiàn)對(duì)Zabbix、Prometheus等監(jiān)控平臺(tái)的告警收斂,以及基于機(jī)器學(xué)習(xí)技術(shù)的場(chǎng)景化告警觸發(fā),有效避免告警風(fēng)暴及告警疲勞。

統(tǒng)一監(jiān)控

從不同的監(jiān)控工具和平臺(tái)采集運(yùn)維數(shù)據(jù),對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化和豐富化處理,最終實(shí)現(xiàn)集中可視化展現(xiàn),使數(shù)據(jù)間實(shí)現(xiàn)關(guān)聯(lián)分析,達(dá)到全局監(jiān)控、統(tǒng)籌分析、精準(zhǔn)決策。

智能降噪

通過(guò) “規(guī)則+AI”雙重模式實(shí)現(xiàn)對(duì)事件的智能降噪,在減少頻繁干擾的同時(shí),還可以從低級(jí)別事件中識(shí)別出重要告警自動(dòng)升級(jí)通知用戶,避免漏報(bào)警。

事件關(guān)聯(lián)

通過(guò)人工智能基于大數(shù)據(jù)分析找出事件關(guān)聯(lián)的本質(zhì),輔以CMDB資源拓?fù)?、?yīng)用調(diào)用鏈等數(shù)據(jù)模型,構(gòu)建關(guān)聯(lián)知識(shí)庫(kù),將相關(guān)聯(lián)事件進(jìn)行聚合。

故障定位

構(gòu)建事件因果關(guān)系圖模型,通過(guò)歷史的事件數(shù)據(jù)、領(lǐng)域知識(shí)和相關(guān)信息對(duì)模型進(jìn)行訓(xùn)練和學(xué)習(xí),根據(jù)事件因果關(guān)系進(jìn)行根因分析和故障定位。

AI增強(qiáng)

通過(guò)可視化、便于用戶理解的語(yǔ)言告知AI如何更好的學(xué)習(xí)數(shù)據(jù)背后的邏輯和規(guī)律,加快模型訓(xùn)練效果,使AI能力得到加倍增強(qiáng)。

團(tuán)隊(duì)高效協(xié)同

對(duì)發(fā)現(xiàn)的故障及時(shí)處理,記錄處理動(dòng)作通過(guò)事件評(píng)論和回復(fù)使團(tuán)隊(duì)成員及時(shí)了解情況,高效溝通、協(xié)同處理、快速響應(yīng)。

多數(shù)據(jù)接入

多元數(shù)據(jù)采集

多元數(shù)據(jù)采集

在建的監(jiān)控系統(tǒng)多,各自產(chǎn)生的數(shù)據(jù)相互割裂,無(wú)法形成有效的關(guān)聯(lián),產(chǎn)生不了價(jià)值。針對(duì)運(yùn)維數(shù)據(jù)(指標(biāo)、日志、事件和拓?fù)洌?,可從開(kāi)源監(jiān)控工具、商用監(jiān)控軟件、API、消息隊(duì)列、郵件、文檔等多種數(shù)據(jù)來(lái)源中實(shí)時(shí)采集元數(shù)據(jù),并對(duì)數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗、加工、計(jì)算和分析,最終作集中統(tǒng)一的可視化展現(xiàn)。

異常檢測(cè)

指標(biāo)異常檢測(cè)

指標(biāo)異常檢測(cè)

指標(biāo)告警的閾值太高會(huì)導(dǎo)致漏報(bào)遭到投訴,閾值太低會(huì)導(dǎo)致噪音太多錯(cuò)過(guò)真正的異常。告別傳統(tǒng)指標(biāo)固定閾值、基線閾值不準(zhǔn)確問(wèn)題,根據(jù)指標(biāo)波動(dòng)的變化例如周期、趨勢(shì)、時(shí)間模式等因素來(lái)綜合判斷指標(biāo)的波動(dòng)變化,系統(tǒng)自動(dòng)優(yōu)選合適的異常檢測(cè)算法,針對(duì)指標(biāo)動(dòng)態(tài)變化數(shù)據(jù)進(jìn)行實(shí)時(shí)檢測(cè),識(shí)別出真正的異常行為觸發(fā)告警,提高告警準(zhǔn)確率。

告警收斂

告警風(fēng)暴抑制

告警風(fēng)暴抑制

當(dāng)管理大規(guī)模的服務(wù)架構(gòu)時(shí),一旦發(fā)生系統(tǒng)故障,將導(dǎo)致大量重復(fù)無(wú)用的告警風(fēng)暴,給運(yùn)維人員造成困擾?;{(diào)聽(tīng)云北冥告警平臺(tái)對(duì)警報(bào)事件智能的、自動(dòng)的進(jìn)行過(guò)濾、壓縮、合并、去重,最終聚合成一種高級(jí)事件即故障通知用戶進(jìn)行處理,減少警報(bào)噪音,降低信息干擾,減輕運(yùn)維人員處理警報(bào)的壓力。

根因分析

故障根因分析

故障根因分析

在當(dāng)今虛擬化和高度冗余的IT環(huán)境中,如何快速確定故障發(fā)生原因?基調(diào)聽(tīng)云北冥告警平臺(tái)致力于調(diào)查影響業(yè)務(wù)服務(wù)的根本原因,利用機(jī)器學(xué)習(xí)技術(shù)對(duì)大數(shù)據(jù)提供的上下文信息進(jìn)行分析,了解事件的相關(guān)性、依賴關(guān)系和因果關(guān)系等相關(guān)性特征,推斷出可能的根本原因;還可根據(jù)用戶的反饋提升根因分析算法的準(zhǔn)確度,提高運(yùn)維解決效率,降低服務(wù)中斷的影響。

多元管理

與外圍系統(tǒng)結(jié)合

與外圍系統(tǒng)結(jié)合

通過(guò)集成CMDB使告警事件豐富化,并根據(jù)CMDB的資源關(guān)聯(lián)關(guān)系增強(qiáng)事件關(guān)聯(lián)能力,在擴(kuò)大聚合范圍、提升聚合精準(zhǔn)度的同時(shí),將聚合后的故障與ITSM工單系統(tǒng)打通,形成故障閉環(huán)的全生命周期管理,還可通過(guò)與呼叫中心集成實(shí)現(xiàn)故障語(yǔ)音呼叫。

產(chǎn)品案例

產(chǎn)品案例

基調(diào)聽(tīng)云服務(wù)百行百業(yè),積累了大量客戶案例,成功助力客戶洞察優(yōu)化數(shù)字化業(yè)務(wù),提升用戶體驗(yàn)。