?

俗話說:“巧婦難為無米之炊”。想要把系統(tǒng)性能問題查個(gè)水落石出,就必須先準(zhǔn)備好充足而細(xì)致的數(shù)據(jù)。性能數(shù)據(jù)不僅是可觀測性分析的基礎(chǔ),定位故障的基石,更是做出正確優(yōu)化決策的前提。
觀云從多種維度采集豐富的監(jiān)控?cái)?shù)據(jù),包括指標(biāo)(Metrics)、日志(Logs)和鏈路(Traces)等,從而支撐可觀測平臺(tái)全面、準(zhǔn)確的定位及分析系統(tǒng)問題。

?

?

?

鏈路(Traces)數(shù)據(jù)的采集方式

?

?

鏈路(Traces)數(shù)據(jù)的采集方式主要包括:探針(Agent)方式 和 SDK 方式。
·?其中,探針(Agent)方式:
無需修改應(yīng)用源碼,通過自動(dòng)注入的方式實(shí)現(xiàn)數(shù)據(jù)采集。目前支持多種主流技術(shù)棧,包括 Java、.NET、.NET Core、Node.js、PHP、Python、Go、Nginx 等。
支持Linux、Windows等主流操作系統(tǒng),支持Amd64和Arm64 CPU架構(gòu)。
支持對運(yùn)行在 Docker 容器 和 Kubernetes Pod 中的應(yīng)用自動(dòng)注入探針,實(shí)現(xiàn)無侵入部署。
同時(shí),提供 黑白名單過濾機(jī)制 與 標(biāo)簽(Label)控制策略,可靈活選擇采集范圍,顯著簡化部署與管理復(fù)雜度,更貼近實(shí)際運(yùn)維管理模式。·?其中,SDK 方式:
通過在應(yīng)用中嵌入采集代碼并重新編譯實(shí)現(xiàn)數(shù)據(jù)采集,適用于無法自動(dòng)注入的語言或有更高自定義需求的場景。目前提供 C/C++ 與 Go Lang SDK。

?

?

?

采集的數(shù)據(jù)內(nèi)容主要包括

?

?

采集的數(shù)據(jù)內(nèi)容主要包括:事務(wù)、數(shù)據(jù)庫、NoSQL、MQ、網(wǎng)絡(luò)I/O、異常、錯(cuò)誤、JVM、HTTP Headers、自定義的方法參數(shù)等各種數(shù)據(jù)及業(yè)務(wù)指標(biāo)。

?

?

?

指標(biāo)(Metrics)數(shù)據(jù)的采集方式

?

?

指標(biāo)(Metrics)數(shù)據(jù)的采集方式主要包括:使用自研基礎(chǔ)設(shè)施Infra探針采集 、promethus指標(biāo)接入、 opentelemetry指標(biāo)接入方式。自研基礎(chǔ)設(shè)施Infra探針目的是采集操作系統(tǒng)和組件的監(jiān)控指標(biāo),與APM的應(yīng)用指標(biāo)關(guān)聯(lián),快速幫用戶定位問題,同時(shí)基調(diào)聽云基礎(chǔ)設(shè)施希望最小化用戶部署的工作量,所以設(shè)計(jì)上希望能原生接入用戶原有的監(jiān)控系統(tǒng)如Zabbix、Promethus等·?其中,自研基礎(chǔ)設(shè)施Infra探針不但可以采集本機(jī)主機(jī)CPU、內(nèi)存、網(wǎng)絡(luò)、磁盤IO等基礎(chǔ)指標(biāo)數(shù)據(jù),還可以通過讀取遠(yuǎn)程主機(jī)的狀態(tài)接口,獲取組件、服務(wù)、數(shù)據(jù)庫等監(jiān)控對象的性能指標(biāo)數(shù)據(jù),例如Nginx指標(biāo),Mysql指標(biāo),MQ指標(biāo)等·?其中,promethus指標(biāo)接入可以通過promethus的Remote read或Remote write 接口接入標(biāo)準(zhǔn)promethus格式的監(jiān)控指標(biāo)數(shù)據(jù),經(jīng)過指標(biāo)治理接入觀云平臺(tái)。
·?其中,opentelemetry指標(biāo)接入可以通過opentelemetry的Metric接口接入標(biāo)準(zhǔn)opentelemetry格式的監(jiān)控指標(biāo)數(shù)據(jù),經(jīng)過指標(biāo)治理接入觀云平臺(tái)。

?

?

?

日志(Logs)數(shù)據(jù)的采集方式

?

?

日志(Logs)數(shù)據(jù)的采集方式主要包括:使用自研基礎(chǔ)設(shè)施Infra探針采集 和 opentelemetry指標(biāo)接入方式:·?其中,自研基礎(chǔ)設(shè)施Infra探針不但可以采集本機(jī)應(yīng)用產(chǎn)生的日志數(shù)據(jù),還可以采集容器內(nèi)應(yīng)用產(chǎn)生的日志數(shù)據(jù)。
·?其中,opentelemetry指標(biāo)接入可以通過opentelemetry的Logs接口接入標(biāo)準(zhǔn)opentelemetry格式的日志數(shù)據(jù),經(jīng)過治理接入觀云平臺(tái)。除了上述三大類數(shù)據(jù)外,觀云平臺(tái)還支持基于 eBPF(Extended Berkeley Packet Filter) 技術(shù)的數(shù)據(jù)采集能力,能夠?qū)M(jìn)程執(zhí)行 on-CPU 堆棧剖析、off-CPU 堆棧剖析,以及對進(jìn)程的網(wǎng)絡(luò)行為進(jìn)行深度觀察與分析。堆棧剖析(Stack Profiling)
觀云通過 eBPF 技術(shù)采集進(jìn)程中所有線程的堆棧信息,不僅覆蓋 應(yīng)用層函數(shù)調(diào)用棧,還包含 內(nèi)核態(tài)調(diào)用棧。采集到的堆棧地址會(huì)自動(dòng)進(jìn)行符號化轉(zhuǎn)換,映射為可讀的源代碼與函數(shù)名稱。
·?結(jié)合 火焰圖(Flame Graph)?展示形式,用戶可以直觀地分析進(jìn)程當(dāng)前正在執(zhí)行的操作路徑,從而快速定位性能熱點(diǎn)與故障根因。網(wǎng)絡(luò)觀測(Network Observation)
觀云利用 eBPF 技術(shù)無侵入地采集進(jìn)程產(chǎn)生的網(wǎng)絡(luò)數(shù)據(jù),
·?采集的維度包括:進(jìn)程 PID、對應(yīng)網(wǎng)卡名稱、對端主機(jī) IP 與端口等;
·?采集的指標(biāo)包括:連接失敗次數(shù)、連接成功次數(shù)及耗時(shí)、發(fā)包次數(shù)與字節(jié)數(shù)、收包次數(shù)與字節(jié)數(shù)、丟包次數(shù)、重傳次數(shù)、通信中斷次數(shù)、RTT 網(wǎng)絡(luò)時(shí)延、RTT 波動(dòng)方差、擁塞窗口大小、零窗口探測次數(shù)等。通過這些維度與指標(biāo),觀云能夠構(gòu)建應(yīng)用間的實(shí)時(shí)拓?fù)潢P(guān)系,揭示節(jié)點(diǎn)間的網(wǎng)絡(luò)依賴與性能瓶頸,幫助用戶快速定位復(fù)雜系統(tǒng)中的網(wǎng)絡(luò)異常與性能問題。


推薦閱讀

  • 隨著數(shù)字化時(shí)代的不斷發(fā)展,應(yīng)用程序編程接口(API)已經(jīng)成為現(xiàn)代軟件開發(fā)的核心組成部分。API允許不同的軟件系統(tǒng)之間實(shí)現(xiàn)互操作性,這為企業(yè)提供了更多的靈活性和創(chuàng)新性。然而,隨著API的增加,監(jiān)控和管理這些API變得愈發(fā)重要。為了保證API的可用性、性能和安全性,API監(jiān)控工具的發(fā)展也必須跟上步伐。

    2023-09-21

  • 應(yīng)用性能管理APM測試是一種軟件測試方法,旨在檢查應(yīng)用程序的性能和功能,它主要用于識(shí)別并解決應(yīng)用程序中的瓶頸,以便提高應(yīng)用程序的可靠性、響應(yīng)時(shí)間和吞吐量。應(yīng)用性能管理測試通常涉及對應(yīng)用程序進(jìn)行監(jiān)視、分析和優(yōu)化,以確保其正常運(yùn)行并符合用戶的需求。

    2023-06-29

  • 隨著科技的不斷進(jìn)步,視頻監(jiān)控系統(tǒng)在各領(lǐng)域中發(fā)揮著越來越關(guān)鍵的作用。保障人員安全、提高生產(chǎn)效能,已經(jīng)成為許多組織和企業(yè)的首要任務(wù)。本文將針對視頻監(jiān)控系統(tǒng)運(yùn)維方案?展開探討。

    2024-01-15

  • 隨著網(wǎng)絡(luò)和應(yīng)用程序在生活和工作中變得越來越重要,很多人企事業(yè)單位對網(wǎng)絡(luò)和應(yīng)用程序的依賴性越來越高。只有確保網(wǎng)絡(luò)運(yùn)行良好、應(yīng)用程序性能優(yōu)越,才能提供更好的使用體驗(yàn)。在這種情況下,網(wǎng)絡(luò)與應(yīng)用性能監(jiān)控?成為了不可或缺的工具。那么,該平臺(tái)有什么功能?

    2023-11-15

  • 在當(dāng)今數(shù)字化時(shí)代,監(jiān)控應(yīng)用性能已經(jīng)成為企業(yè)成功的關(guān)鍵因素之一。無論是在線交易平臺(tái)、社交媒體網(wǎng)站,還是云計(jì)算基礎(chǔ)設(shè)施,對應(yīng)用性能的持續(xù)監(jiān)控都是確保用戶滿意度和業(yè)務(wù)穩(wěn)健運(yùn)行的關(guān)鍵。

    2023-11-09