疫情等黑天鵝事件的頻發(fā),使得企業(yè)更加意識到數(shù)字化轉(zhuǎn)型的重要性,也因此加速了數(shù)字化轉(zhuǎn)型的需求。數(shù)字化轉(zhuǎn)型不僅可以幫助企業(yè)適應(yīng)新的商業(yè)環(huán)境和市場需求,還能夠提高運營效率、降低成本、改善客戶體驗,以及實現(xiàn)創(chuàng)新和增長。不過,在數(shù)字化轉(zhuǎn)型的道路上,大多數(shù)企業(yè)會面臨一個問題:對傳統(tǒng)企業(yè)或者是 IT 能力薄弱的團隊,如何快速地去完成數(shù)字化轉(zhuǎn)型?

基于云原生的輕量級框架在云上通過敏捷開發(fā)快速實現(xiàn)數(shù)字化轉(zhuǎn)型的業(yè)務(wù),目前是比較流行的做法。但是享受云原生技術(shù)帶來的敏捷和便利的同時 ,技術(shù)團隊也會面臨一些新的挑戰(zhàn),比如上層應(yīng)用復(fù)雜度的增加,出現(xiàn)問題時,分析需要使用不同維度的工具,這意味著服務(wù)維持、維護運營會更加的困難。比如近期,英國空管系統(tǒng)故障,一條小小的飛行記錄導(dǎo)致航班中斷 4 小時,給企業(yè)預(yù)計造成了 1 億英鎊損失。這意味著一旦企業(yè)轉(zhuǎn)型,業(yè)務(wù)高度依賴數(shù)字化,系統(tǒng)的可運維性、連續(xù)性和可觀測性就變得非常的重要。近期,CSDN專訪了國內(nèi)性能監(jiān)測領(lǐng)域頭部廠商基調(diào)聽云產(chǎn)品VP陳靖華,他從系統(tǒng)性能監(jiān)測的新手段——可觀測性核心技術(shù)思路,以及未來性能監(jiān)測發(fā)展,給出了詳細(xì)的見解。

可觀測性:提升云原生復(fù)雜系統(tǒng)的監(jiān)控能力

隨著企業(yè)數(shù)字化轉(zhuǎn)型的加速,傳統(tǒng)的基礎(chǔ)設(shè)施監(jiān)控(ITIM)、應(yīng)用性能監(jiān)控(APM)、網(wǎng)絡(luò)性能監(jiān)控(NPM)和日志監(jiān)控技術(shù)已無法滿足云原生環(huán)境下的應(yīng)用系統(tǒng)高度連續(xù)性的運維監(jiān)控訴求??捎^測性(Observability)作為新興的技術(shù)和理念,近年來得到了廣泛關(guān)注?;{(diào)聽云作為國內(nèi)可觀測性技術(shù)的探索者和實踐者,在產(chǎn)品矩陣中增加了可觀測性,并針對云原生環(huán)境進行了技術(shù)創(chuàng)新,以提升在復(fù)雜系統(tǒng)中的觀測能力。

基調(diào)聽云產(chǎn)品 VP 陳靖華在采訪中表示,可觀測性興起的原因在于云原生和微服務(wù)架構(gòu)下,系統(tǒng)的復(fù)雜度大幅提升,傳統(tǒng)的監(jiān)控手段效率下降,無法在復(fù)雜系統(tǒng)中快速定位問題。而基于CNCF OpenTelemetry標(biāo)準(zhǔn)的確立,可觀測性系統(tǒng)或平臺通過統(tǒng)一采集各維度監(jiān)控數(shù)據(jù),構(gòu)建關(guān)聯(lián)性,在未來將有效提升復(fù)雜系統(tǒng)的可觀測能力。

具體來看,疫情期間遠(yuǎn)程辦公和線上業(yè)務(wù)需求激增,促使許多企業(yè)加速了數(shù)字化轉(zhuǎn)型步伐,這使系統(tǒng)架構(gòu)也向微服務(wù)和云原生演進。這給傳統(tǒng)的監(jiān)控帶來了巨大挑戰(zhàn)。以往傳統(tǒng)的監(jiān)控系統(tǒng)依賴人工構(gòu)建的模板和經(jīng)驗進行問題分析定位,但云原生系統(tǒng)復(fù)雜動態(tài),許多問題并不在預(yù)判范圍內(nèi)。傳統(tǒng)監(jiān)控系統(tǒng)效率下降,無法快速定位復(fù)雜的未知的系統(tǒng)故障。而可觀測性正是通過采集更多維度監(jiān)控數(shù)據(jù),實現(xiàn)更全面的系統(tǒng)洞察,才得以應(yīng)對云原生環(huán)境的監(jiān)控難題。

可觀測性的核心能力是什么

作為國內(nèi)性能監(jiān)測領(lǐng)域的重要廠商,基調(diào)聽云探索和總結(jié)了可觀測性的四大核心能力,具體來說:

采集即治理,構(gòu)建一體化探針能力

基調(diào)聽云通過自主研發(fā)的一體化 Agent 探針,實現(xiàn)了從底層基礎(chǔ)設(shè)施到應(yīng)用層、業(yè)務(wù)層和體驗層各維度監(jiān)控數(shù)據(jù)的自動化采集。這套探針體系經(jīng)過多年積累,支持國產(chǎn)操作系統(tǒng)和中間件,對云原生組件和信創(chuàng)組件都具有非常好的適配性。其中的關(guān)鍵創(chuàng)新在于“采集即治理”的理念,不再是傳統(tǒng)的分離采集和治理,而是在探針端就完成監(jiān)控數(shù)據(jù)的標(biāo)注、過濾等治理工作。這種一體化采集和即時治理的設(shè)計,大幅降低了后端的數(shù)據(jù)處理壓力,也提升了監(jiān)控分析的效果。

用戶體驗至上,打造 DEM 能力

新冠疫情的影響,讓數(shù)字化轉(zhuǎn)型比以往更加注重用戶體驗,無論是最終用戶的辦事和購物體驗,還是公司員工和合作伙伴的遠(yuǎn)程辦公體驗?;{(diào)聽云非常重視對終端用戶體驗的監(jiān)測,這與可觀測性要以用戶和業(yè)務(wù)為中心的思想高度一致。基調(diào)聽云通過前端探針采集移動App,網(wǎng)站和各種小程序的用戶操作行為和體驗數(shù)據(jù),再與后臺系統(tǒng)性能數(shù)據(jù)關(guān)聯(lián),可以準(zhǔn)確反映用戶視角下的體驗狀況。這套能力也稱為DEM(Digital Experience Management)。未來基調(diào)聽云還會持續(xù)加強DEM建設(shè),使得業(yè)務(wù)系統(tǒng)的監(jiān)測更加用戶導(dǎo)向。

構(gòu)建可擴展的數(shù)據(jù)湖倉

為了支持可觀測性的落地,基調(diào)聽云專門設(shè)計并搭建了一個可以并行存取多源異構(gòu)數(shù)據(jù)的“數(shù)據(jù)湖倉”平臺。一方面如“數(shù)據(jù)湖”般可以低成本容納各類結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù);另一方面又具備“數(shù)據(jù)倉庫”的快速查詢與分析功能??梢宰鳛榭捎^測性后端的數(shù)據(jù)交互引擎,充分支撐數(shù)據(jù)聚合、處理和分析等訴求。該存儲方案也具備良好的橫向擴展能力,可以適應(yīng)未來數(shù)據(jù)量的拓展需要。

提供開放式的探索分析能力

基調(diào)聽云正在打造的新一代可觀測平臺,在保證數(shù)據(jù)采集完整性的前提下,將提供開放式的探索分析能力,支持客戶進行 Open-ended 的問題發(fā)現(xiàn)和根因追蹤,而不是僅僅依賴固化的分析流程或模板。這種“無邊界探索”的能力是可觀測性監(jiān)控與傳統(tǒng)監(jiān)控最核心的區(qū)別所在,也是基調(diào)聽云在產(chǎn)品設(shè)計上的一大創(chuàng)新點。

有了上面可觀測性的四大能力,在產(chǎn)品規(guī)劃上,基調(diào)聽云正致力打造一個開放、適應(yīng)性強的新一代可觀測性平臺。該平臺預(yù)計會在 2023 年底正式發(fā)布,屆時將呈現(xiàn)基調(diào)聽云在可觀測性監(jiān)控領(lǐng)域的系列創(chuàng)新。

具體來看,新平臺在數(shù)據(jù)采集端會提供業(yè)界領(lǐng)先的一體化探針能力,實現(xiàn)全面的監(jiān)控數(shù)據(jù)自動收集,同時也將用戶體驗數(shù)據(jù)(DEM)有機納入;在數(shù)據(jù)處理端將具備可并行處理多源海量異構(gòu)數(shù)據(jù)的可擴展“數(shù)據(jù)湖倉”方案;在分析和運維端將重點賦能開放式的探索分析能力,支持客戶自主、快速地進行問題發(fā)現(xiàn)和根因分析。

可以看出,新平臺在設(shè)計理念上更契合可觀測性的價值所在,既提供完備的監(jiān)控數(shù)據(jù),也讓客戶更自主地進行故障追蹤和定位,而不是依賴固定的模板或流程,可以更好應(yīng)對云原生環(huán)境下的動態(tài)變化。這也使基調(diào)聽云的可觀測平臺方案在行業(yè)中能夠脫穎而出。

多年來,基調(diào)聽云始終是國內(nèi) APM 和可觀測性技術(shù)的引領(lǐng)者。這次新的可觀測平臺發(fā)布也將進一步鞏固基調(diào)聽云在行業(yè)中的技術(shù)優(yōu)勢地位。目前基調(diào)聽云是國內(nèi)唯一5次成功入選 Gartner APM及可觀測性魔力象限的國產(chǎn)可觀測性廠商,在未來的可觀測性賽道中,基調(diào)聽云也將保持持續(xù)領(lǐng)先的地位。

可觀測性監(jiān)控的未來走向哪里

展望未來,陳靖華認(rèn)為可觀測性監(jiān)控將朝兩個方向發(fā)展:

一是構(gòu)建可觀測性文化體系??捎^測性不僅僅是技術(shù),需要貫穿整個軟件交付鏈。從產(chǎn)品設(shè)計到開發(fā)測試再到運維,每一個環(huán)節(jié)都要將可觀測性理念融入,逐步形成一整套可觀測性方法論。這套方法論將基于基本原理不斷迭代優(yōu)化。

二是結(jié)合人工智能賦能自動化。在可觀測性方法論成熟后,可以嘗試使用人工智能技術(shù)進行自動化。未來可期待出現(xiàn)一個類似 ChatGPT 的 AI Agent,通過可交互的方式快速進行故障分析和定位。最終實現(xiàn)故障自愈,無需人工參與。但目前行業(yè)仍處在可觀測性方法論構(gòu)建階段,完全自動化還需 5-10 年時間。

隨著 IT 系統(tǒng)向云原生架構(gòu)演進,可觀測性必將成為監(jiān)控體系的重要組成部分。陳靖華表示,基調(diào)聽云將繼續(xù)耕耘這個藍(lán)海技術(shù)領(lǐng)域,堅持以客戶需求為導(dǎo)向,持續(xù)進行技術(shù)創(chuàng)新與迭代。相信在不久的將來,基調(diào)聽云將會用自己的可觀測性實踐,幫助更多的企業(yè)實現(xiàn)數(shù)字化轉(zhuǎn)型,提升系統(tǒng)穩(wěn)定性和運維效率,創(chuàng)造更大的商業(yè)價值。

基調(diào)聽云智能可觀測性平臺

基調(diào)聽云智能可觀測性平臺圍繞企業(yè)的信息化與數(shù)字化業(yè)務(wù)提供一套全面覆蓋終端用戶體驗、應(yīng)用性能、業(yè)務(wù)性能、基礎(chǔ)設(shè)施和多云環(huán)境的基于AI的智能可觀測性平臺。經(jīng)過大量金融、運營商等客戶的生產(chǎn)驗證,高效保證企業(yè)數(shù)字化業(yè)務(wù)穩(wěn)定運行,提高SLA,降低MTTR。該平臺持續(xù)自動化的獲取數(shù)據(jù),輔以AI技術(shù),持續(xù)的自動分析,自動告警,并能能夠主動提供答案,做到全棧的可觀測性,幫助客戶持續(xù)優(yōu)化用戶體驗、提高研發(fā)運維效率和加快業(yè)務(wù)創(chuàng)新速率,實現(xiàn)助力企業(yè)加速數(shù)字化轉(zhuǎn)型,提升企業(yè)數(shù)字化競爭力。