身處數(shù)字時(shí)代,數(shù)字化轉(zhuǎn)型對(duì)企業(yè)的重要性不言而喻。統(tǒng)計(jì)數(shù)據(jù)顯示,91%的企業(yè)都參與了某種形式的數(shù)字化計(jì)劃。87%的企業(yè)認(rèn)為數(shù)字化將顛覆他們的行業(yè)。政策驅(qū)動(dòng)、技術(shù)發(fā)展等等因素都在推動(dòng)著企業(yè)走向數(shù)字化領(lǐng)域,從而在激烈的市場(chǎng)競(jìng)爭(zhēng)中脫穎而出。
然而,隨著數(shù)字化的逐步深入,云原生的廣泛應(yīng)用讓分布式架構(gòu)取代了原有的單體架構(gòu),微服務(wù)、容器、Serverless等部署方式能讓企業(yè)低成本、快速實(shí)現(xiàn)搭建的同時(shí),也會(huì)讓整個(gè)系統(tǒng)愈加復(fù)雜,對(duì)企業(yè)IT能力要求變高,傳統(tǒng)的被動(dòng)“監(jiān)控”難以追蹤分布式架構(gòu)中的通信路徑和相互依賴關(guān)系,尋找和排查問(wèn)題更是難上加難,維護(hù)運(yùn)營(yíng)成本飆升。一旦出現(xiàn)問(wèn)題,可能“牽一發(fā)而動(dòng)全身”。
例如,8月28日,英國(guó)空中交通管制系統(tǒng)發(fā)生技術(shù)故障,當(dāng)天有1500多個(gè)航班被取消,約占該系統(tǒng)需管制航班數(shù)量的四分之一,其影響持續(xù)數(shù)日之久,預(yù)估損失超過(guò)1億英鎊。數(shù)字化轉(zhuǎn)型背后,其實(shí)是對(duì)企業(yè)的監(jiān)控系統(tǒng)提出了新要求。

從傳統(tǒng)監(jiān)控到可觀測(cè)性
企業(yè)尋求變革以滿足不斷增長(zhǎng)的需求
隨著微服務(wù)及容器化的普及,服務(wù)粒度細(xì)化,不同的服務(wù)模塊甚至由不同的語(yǔ)言開(kāi)發(fā),運(yùn)行在不同云環(huán)境,排查定位系統(tǒng)問(wèn)題的難度呈指數(shù)級(jí)擴(kuò)散。據(jù)CSDN年度重要調(diào)研報(bào)告《2022-2023 中國(guó)開(kāi)發(fā)者調(diào)查報(bào)告》結(jié)果顯示,開(kāi)發(fā)者廣泛認(rèn)為復(fù)雜性高、規(guī)范 API 接口、降低延時(shí)和故障率,是云原生亟待解決的重要的問(wèn)題。云原生技術(shù)的廣泛應(yīng)用使得 IT 系統(tǒng)環(huán)境變得更加復(fù)雜,微服務(wù)和容器產(chǎn)生了大量的數(shù)據(jù),包括指標(biāo)、事件、日志等。另外,DevOps實(shí)踐讓開(kāi)發(fā)工程師和運(yùn)維工程師共同對(duì)服務(wù)的穩(wěn)定性負(fù)責(zé),研發(fā)開(kāi)始引入全鏈路追蹤系統(tǒng),幫助快速定位問(wèn)題;同時(shí)也需要在研發(fā)過(guò)程中輸出更多輔助定位系統(tǒng)問(wèn)題的應(yīng)用日志。
這些種種原因,讓企業(yè)迫切需要一個(gè)新的解決方案,在多個(gè)廠商組成一套系統(tǒng)的背景下,能夠融入開(kāi)發(fā)與業(yè)務(wù)部門(mén)的視角,及時(shí)而靈活地在運(yùn)行層面發(fā)現(xiàn)問(wèn)題、解決問(wèn)題,而不僅僅依靠監(jiān)控指標(biāo),“可觀測(cè)性”概念應(yīng)運(yùn)而生。早在2018年,CNCF就將可觀測(cè)性一詞引入IT領(lǐng)域,并稱可觀測(cè)性是云原生時(shí)代必須具備的能力。自此,“可觀測(cè)性”逐漸取代“監(jiān)控”,成為云原生技術(shù)領(lǐng)域最熱門(mén)的話題之一。Gartner 將可觀測(cè)性定義為軟件和系統(tǒng)的一種特性,它允許管理員收集有關(guān)系統(tǒng)的外部和內(nèi)部狀態(tài)數(shù)據(jù),以便他們回答有關(guān)其行為的問(wèn)題。然后,I&O、DevOps、SRE、Support等團(tuán)隊(duì)可以利用這些數(shù)據(jù)來(lái)調(diào)查異常情況,參與可觀察性驅(qū)動(dòng)的開(kāi)發(fā),并提高系統(tǒng)性能和正常運(yùn)行時(shí)間。
至此指標(biāo)、日志、追蹤都已經(jīng)得到廣泛應(yīng)用,2018年CNCF提出可觀測(cè)性分組,將監(jiān)控、日志和追蹤相關(guān)的項(xiàng)目都?xì)w入可觀測(cè)性領(lǐng)域,后來(lái)又引入了混沌工程??傮w來(lái)說(shuō),可觀測(cè)性描述的就是“觀測(cè)-判斷-優(yōu)化-再觀測(cè)”這個(gè)閉環(huán)的連續(xù)性、高效性。如果說(shuō)傳統(tǒng)監(jiān)控是告訴我們系統(tǒng)的哪些部分是工作的,可觀測(cè)性就是告訴我們那里為什么不工作了。從某個(gè)意義上來(lái)說(shuō),監(jiān)控是可觀測(cè)性的子集和功能,可觀測(cè)性是監(jiān)控的超集和延展。
基調(diào)聽(tīng)云產(chǎn)品VP陳靖華近日受訪中也表示:任何企業(yè)的數(shù)字化系統(tǒng),只有做到可觀測(cè),才能正在被有效監(jiān)控,避免在轉(zhuǎn)型過(guò)程中出現(xiàn)由復(fù)雜性導(dǎo)致的系統(tǒng)性能突發(fā)故障,從而提升數(shù)字化運(yùn)維質(zhì)量與效率。
順勢(shì)而為,性能監(jiān)測(cè)Top廠商
基調(diào)聽(tīng)云穩(wěn)步推進(jìn)可觀測(cè)性能力建設(shè)
由于疫情帶來(lái)全行業(yè)線上業(yè)務(wù)的爆發(fā)式增長(zhǎng),2020年前后,整個(gè)性能監(jiān)控行業(yè)都在向可觀測(cè)性轉(zhuǎn)型。我們看到,作為性能監(jiān)測(cè)行業(yè)第一梯隊(duì)廠商,基調(diào)聽(tīng)云在轉(zhuǎn)型上有著天然優(yōu)勢(shì)。CNCF(云原生計(jì)算基金會(huì))定義的可觀測(cè)性三大支柱包括鏈路追蹤(Trace)、聚合度量(Metrics)和日志(Log)。這些也是應(yīng)用性能監(jiān)控(APM)的重要元素,它們幫助開(kāi)發(fā)者和運(yùn)維人員追蹤應(yīng)用的性能問(wèn)題,聚合和分析應(yīng)用的各項(xiàng)度量數(shù)據(jù),以及通過(guò)日志來(lái)了解應(yīng)用的行為和問(wèn)題,因此基調(diào)聽(tīng)云入局可觀測(cè)性可謂是“家學(xué)淵源”極深。但基調(diào)聽(tīng)云并不滿足于現(xiàn)狀,正在逐步完善自身的采集能力,打造出一體化的采集系統(tǒng)。

從上圖可以看到,基調(diào)聽(tīng)云智能可觀測(cè)性平臺(tái)可接入600+技術(shù)棧,其中除了追蹤、指標(biāo)、日志,平臺(tái)還具備拓?fù)潢P(guān)系、診斷、用戶體驗(yàn)、元信息等多種核心能力,并以統(tǒng)一探針、追蹤、AI算法平臺(tái)、業(yè)務(wù)分析引擎等平臺(tái)級(jí)能力提供從基礎(chǔ)設(shè)施、云原生、應(yīng)用與微服務(wù)、終端體驗(yàn)、實(shí)時(shí)業(yè)務(wù)洞察等全方位的可觀測(cè)性。
基調(diào)聽(tīng)云將智能可觀測(cè)性平臺(tái)建設(shè)思路分為夯實(shí)數(shù)據(jù)基礎(chǔ)、數(shù)據(jù)治理&應(yīng)用、增強(qiáng)可觀測(cè)性三個(gè)階段去建設(shè),層層推進(jìn),穩(wěn)步轉(zhuǎn)型,值得業(yè)界參考。
第一階段:夯實(shí)數(shù)據(jù)基礎(chǔ)
- 查缺補(bǔ)漏,完善技術(shù)??捎^測(cè)性數(shù)據(jù)采集能力
- 以Tracing為追蹤,全面采集APP、web、小程序、網(wǎng)絡(luò)及后臺(tái)系統(tǒng)應(yīng)用指標(biāo)數(shù)據(jù);
- 以業(yè)務(wù)承載關(guān)系采集主機(jī)、云原生組件、數(shù)據(jù)庫(kù)、消息隊(duì)列指標(biāo)數(shù)據(jù);
- 采集設(shè)備,系統(tǒng),應(yīng)用等訪問(wèn)日志,業(yè)務(wù)日志、應(yīng)用日志。
第二階段:數(shù)據(jù)治理&應(yīng)用
- 實(shí)現(xiàn)Tracings、Metrics 、Logs互聯(lián)互通,實(shí)現(xiàn)統(tǒng)一建模與轉(zhuǎn)化關(guān)聯(lián);
- APM與基礎(chǔ)組件聯(lián)動(dòng)分析,實(shí)現(xiàn)應(yīng)用層全棧和基礎(chǔ)組件關(guān)聯(lián),提升綜合定位問(wèn)題能力;
- APM與日志聯(lián)動(dòng)分析,實(shí)現(xiàn)應(yīng)用層全棧和日志的精確對(duì)接,提高定位效率和精度;
- IT數(shù)據(jù)與業(yè)務(wù)數(shù)據(jù)聯(lián)動(dòng)分析,業(yè)務(wù)指標(biāo)與性能追蹤,統(tǒng)計(jì)分析業(yè)務(wù)數(shù)據(jù)并呈現(xiàn)價(jià)值。
第三階段:增強(qiáng)可觀測(cè)性
- 實(shí)現(xiàn)多源數(shù)據(jù)整合,引入先進(jìn)的機(jī)器學(xué)習(xí)和AI算法模型,增強(qiáng)可觀測(cè)性能力;
- 歷史運(yùn)維數(shù)據(jù)分析;
- 智能分析決策及設(shè)計(jì)反饋;
- 智能關(guān)聯(lián)分析、告警收斂、容量預(yù)測(cè)。
最終形成基于行業(yè)傳統(tǒng)的可觀測(cè)性能力——指標(biāo)、追蹤、日志三大支柱之上,再加以診斷、用戶體驗(yàn),全新的五大支柱能力。
基調(diào)聽(tīng)云一直致力于提升用戶體驗(yàn),無(wú)論是在數(shù)據(jù)采集、一體化的探針打造,還是數(shù)據(jù)弧倉(cāng)的構(gòu)建等方面。所有這些努力都源于對(duì)用戶的關(guān)注和重視。然而,系統(tǒng)后端的問(wèn)題可以通過(guò)重啟或快速修復(fù)來(lái)解決,但企業(yè)往往無(wú)法直接了解終端客戶的個(gè)性化問(wèn)題。這給用戶帶來(lái)很大的困擾,他們往往無(wú)法通過(guò)自行搜索解決問(wèn)題。這些問(wèn)題產(chǎn)生的溝通成本非常高,甚至可能導(dǎo)致企業(yè)失去用戶。因此,基調(diào)聽(tīng)云將用戶需求置于首位,致力于提供更加優(yōu)質(zhì)的產(chǎn)品和服務(wù),以滿足用戶的個(gè)性化需求。
基調(diào)聽(tīng)云致力于通過(guò)智能可觀測(cè)性平臺(tái)實(shí)現(xiàn)問(wèn)題的精準(zhǔn)定位。當(dāng)客戶遇到系統(tǒng)問(wèn)題時(shí),無(wú)需發(fā)送截圖或詳細(xì)描述問(wèn)題,通過(guò)在用戶同意的情況下,運(yùn)營(yíng)者可以在系統(tǒng)后臺(tái)直接打開(kāi)相應(yīng)的開(kāi)關(guān)。用戶只需按照指示復(fù)現(xiàn)操作,后臺(tái)就能夠獲取到隱去個(gè)人信息的相同頁(yè)面。通過(guò)這種方式,我們可以清晰地了解整個(gè)界面的渲染過(guò)程以及用戶的每一步操作。這有助于后端快速了解每一位終端客戶的情況,準(zhǔn)確找出問(wèn)題的根源。此外,該平臺(tái)還能夠提供關(guān)于用戶所遇到問(wèn)題的相關(guān)數(shù)據(jù)以及與后端微服務(wù)平臺(tái)數(shù)據(jù)之間的關(guān)聯(lián)信息,從而幫助企業(yè)更全面地了解問(wèn)題并制定更有效的解決方案。
全面數(shù)字化時(shí)代已經(jīng)到來(lái),企業(yè)數(shù)字化發(fā)展不僅要注重產(chǎn)出也要注重成果,基調(diào)聽(tīng)云已全身心投入數(shù)字經(jīng)濟(jì)新藍(lán)海建設(shè)中,積極發(fā)揮數(shù)字時(shí)代下產(chǎn)品及平臺(tái)的“融匯”、“融通”、“融智”的核心優(yōu)勢(shì),攜手金融行業(yè)及等更多行業(yè)玩轉(zhuǎn)數(shù)字時(shí)代
2022-08-23

封面?zhèn)浞?.png)

云聯(lián)系電話.png)