2023年1月12日,由中國(guó)信息通信研究院主辦,混沌工程實(shí)驗(yàn)室、云上軟件工程社區(qū)支持的“混沌工程實(shí)驗(yàn)室2023年會(huì)暨年度頒獎(jiǎng)典禮”圓滿召開(kāi)。在當(dāng)前IT系統(tǒng)全面上云,云原生與微服務(wù)的架構(gòu)趨勢(shì)的時(shí)代背景下,提升云系統(tǒng)穩(wěn)定運(yùn)行能力的重要性日益凸顯。中國(guó)信通院于2022年11月啟動(dòng)“首屆云系統(tǒng)穩(wěn)定安全運(yùn)行優(yōu)秀案例征集”活動(dòng),以期激發(fā)云系統(tǒng)穩(wěn)定性領(lǐng)域磅礴的創(chuàng)新力量,為數(shù)字化轉(zhuǎn)型穩(wěn)步推進(jìn)奠定基礎(chǔ)。

會(huì)上公布了“云系統(tǒng)穩(wěn)定安全運(yùn)行優(yōu)秀案例”評(píng)選結(jié)果,基調(diào)聽(tīng)云憑借與金茂集團(tuán)共創(chuàng)《基于用戶體驗(yàn)的多維可觀測(cè)能力體系建設(shè)實(shí)踐》入選中國(guó)信通院可觀測(cè)性優(yōu)秀實(shí)踐評(píng)定的“卓越級(jí)”名單。

中國(guó)金茂作為地產(chǎn)行業(yè)數(shù)字化建設(shè)的先行者與領(lǐng)跑者,目前已建設(shè)覆蓋地產(chǎn)行業(yè)投資、營(yíng)銷、經(jīng)營(yíng)、會(huì)員運(yùn)營(yíng)等全業(yè)務(wù)場(chǎng)景的應(yīng)用系統(tǒng)200余套。系統(tǒng)規(guī)模與復(fù)雜度的快速提升引發(fā)眾多用戶體驗(yàn)問(wèn)題,集團(tuán)對(duì)建設(shè)具備高效可觀測(cè)性能力的監(jiān)控需求愈發(fā)迫切。

2020年基調(diào)聽(tīng)云與金茂集團(tuán)合作以來(lái),通過(guò)對(duì)金茂系統(tǒng)的逐步調(diào)研,圍繞業(yè)務(wù)可用性、穩(wěn)定性及質(zhì)量三個(gè)維度開(kāi)展可觀測(cè)能力體系建設(shè)及應(yīng)用落地的共創(chuàng)合作,支撐金茂逐步形成以APM為核心,CMDB為數(shù)據(jù)底座,結(jié)合撥測(cè)、基礎(chǔ)監(jiān)控能力的發(fā)展布局建設(shè),基于金茂自身業(yè)務(wù)特性,形成以可觀測(cè)能力建設(shè)、數(shù)據(jù)融通、深度治理的三階段建設(shè)路徑。為在更多大型國(guó)央企中成功落地可觀測(cè)性監(jiān)控平臺(tái)的思路和方法,提供可借鑒的優(yōu)秀實(shí)踐案例。

實(shí)踐一:解決可觀測(cè)信號(hào)覆蓋不全。

在體系建設(shè)初期,集團(tuán)內(nèi)的多數(shù)應(yīng)用存在監(jiān)控手段不全,數(shù)據(jù)采集覆蓋度低的現(xiàn)象,基調(diào)聽(tīng)云助力金茂從信號(hào)采集、信號(hào)關(guān)聯(lián)和信號(hào)告警三個(gè)環(huán)節(jié)規(guī)劃可觀測(cè)能力的覆蓋策略。在信號(hào)采集環(huán)節(jié)依據(jù)指標(biāo)體系開(kāi)展全I(xiàn)T資源可觀測(cè)能力建設(shè);在信號(hào)關(guān)聯(lián)環(huán)節(jié)進(jìn)行Tracing數(shù)據(jù)關(guān)聯(lián)、告警數(shù)據(jù)規(guī)范化,實(shí)現(xiàn)跨層數(shù)據(jù)打通;在信號(hào)告警環(huán)節(jié)制定精準(zhǔn)告警策略,統(tǒng)一規(guī)范告警通知及處置動(dòng)作,實(shí)現(xiàn)用戶側(cè)感知一致。

實(shí)踐二:解決業(yè)務(wù)可觀測(cè)鏈路完整度缺失。

在可觀測(cè)能力建設(shè)中,將信號(hào)采集、信號(hào)關(guān)聯(lián)和信號(hào)告警的三大支柱數(shù)據(jù)的實(shí)現(xiàn)互聯(lián)互通?;趯?duì)用戶體驗(yàn)、網(wǎng)絡(luò)、服務(wù)器、操作系統(tǒng)、數(shù)據(jù)庫(kù)、中間件、應(yīng)用軟件的可觀測(cè)性數(shù)據(jù)的采集,形成日志、指標(biāo)和追蹤數(shù)據(jù)的關(guān)聯(lián)分析,實(shí)現(xiàn)了在一個(gè)可觀測(cè)性系統(tǒng)中聯(lián)動(dòng)分析與下鉆,通過(guò)多個(gè)信號(hào)或視角來(lái)觀測(cè)系統(tǒng)時(shí),更加的靈活和平滑,大大提高了分析的效率和精準(zhǔn)度,減少排障時(shí)間。

實(shí)踐三:解決現(xiàn)有研運(yùn)體系(DevOps、CMDB、ITSM)缺少可觀測(cè)能力。

可觀測(cè)性平臺(tái)與金茂體系內(nèi)DevOps流程深度融合,在應(yīng)用的發(fā)布流程中結(jié)合可觀測(cè)性信號(hào)采集的不同形式探針,形成系統(tǒng)發(fā)布時(shí)即具備了完成的可觀測(cè)性,將可觀測(cè)性能力左移到開(kāi)發(fā)測(cè)試階段,上線即納管,增強(qiáng)系統(tǒng)上線后的健壯度,提高運(yùn)維管理效率。

建設(shè)成效:

  • 助力金茂集團(tuán)內(nèi)重點(diǎn)系統(tǒng)開(kāi)展常態(tài)化監(jiān)測(cè)預(yù)警,配置7×24小時(shí)主動(dòng)觀測(cè)能力,使各類用戶體驗(yàn)問(wèn)題可控、可量、可管。
  • 助力金茂集團(tuán)實(shí)現(xiàn)覆蓋終端、網(wǎng)絡(luò)、主機(jī)、中間件、應(yīng)用系統(tǒng)的多維可觀測(cè)能力體系建設(shè),并搭建閉環(huán)流程實(shí)現(xiàn)數(shù)據(jù)告警事件閉環(huán)處置。實(shí)現(xiàn)對(duì)多類告警場(chǎng)景的統(tǒng)一格式展示,目前已在各重點(diǎn)業(yè)務(wù)系統(tǒng)中落地應(yīng)用。
  • 集團(tuán)內(nèi)系統(tǒng)整體性能及用戶體驗(yàn)數(shù)據(jù)優(yōu)化效果顯著。通過(guò)質(zhì)量?jī)?yōu)化專項(xiàng)優(yōu)化行動(dòng),用白屏?xí)r間、首屏?xí)r間、可交互時(shí)間、慢頁(yè)面占比、后端錯(cuò)誤數(shù)和數(shù)據(jù)庫(kù)響應(yīng)時(shí)間的六大指標(biāo)對(duì)用戶體驗(yàn)形成標(biāo)準(zhǔn)化評(píng)估規(guī)范,實(shí)現(xiàn)業(yè)務(wù)價(jià)值快速規(guī)?;涞?。
  • 將可觀測(cè)能力與DevOps流程接入,在代碼集成發(fā)版環(huán)節(jié)通過(guò)CICD方式進(jìn)行觀測(cè)能力自動(dòng)嵌入,實(shí)現(xiàn)項(xiàng)目全生命周期可觀測(cè)。