近日,成都核酸、東軟集團回應(yīng)等詞條頻頻沖上熱搜,而多次的回應(yīng)也被網(wǎng)友們戲稱為“甩鍋”行為,那么,成都核酸系統(tǒng)的崩潰究竟是誰的鍋呢?這要從成都市9月1日發(fā)布通知說起。
據(jù)成都相關(guān)部門消息,9月1日至4日,成都在全市范圍內(nèi)開展全員核酸檢測。9月2日晚,核酸檢測系統(tǒng)出現(xiàn)異常,導(dǎo)致采樣排隊時間過長,核酸檢測進度緩慢,給市民群眾帶來困擾和不便。做核酸的隊伍至少排3個小時,還有工作人員齊齊舉起手機找信號的場面也令人唏噓,網(wǎng)友調(diào)侃原來抬頭并不一定是看星星。這也是繼西安健康碼崩潰后的又一大核酸系統(tǒng)故障事件。

而根據(jù)東軟的回應(yīng)來看,東軟認為此次問題的出現(xiàn)并不是系統(tǒng)層面的問題,而是網(wǎng)絡(luò)性能問題導(dǎo)致。隨后,四川省通信管理局發(fā)文反駁了東軟說法,表示全市通信網(wǎng)絡(luò)運行平穩(wěn),各核酸檢測點移動網(wǎng)絡(luò)覆蓋良好,沒有出現(xiàn)網(wǎng)絡(luò)擁塞和故障。
各方說法不一,對故障原因始終沒有明確的界定,讓輿論不斷發(fā)酵,最重要的是影響了全市用戶生活。



所以,在面對突如其來的甩鍋問題上,我們應(yīng)該如何正確界定故障發(fā)生的責(zé)任從而避免甩鍋行為呢?
要知道的是,外包項目在交付和驗收過程中,我們除了驗證基本的功能可用外,不能忽視一個很重要的問題就是壓力測試與性能監(jiān)控。
爭做事前諸葛亮,提早預(yù)知問題
?
爭做事前諸葛亮,提早預(yù)知問題
?
據(jù)統(tǒng)計成都市人口2千萬多人。假設(shè)集中在6小時內(nèi)做核酸,平均每小時支持的并發(fā)人數(shù)是3531666。每秒支持的并發(fā)約為1000?;跈z測人員的集中度不均衡的因素,假設(shè)高峰期是平均并發(fā)的2-3倍。則每秒并發(fā)“核酸登記”2000-3000左右。
基于以上問題,我們可以在系統(tǒng)上線前針對服務(wù)商提供的系統(tǒng)進行全方位的健康度檢測,針對使用過程中的任意場景完成壓力測試,以確保系統(tǒng)正式使用中能夠達到交付標準,從而對系統(tǒng)供應(yīng)商有量級的考核標準,也就是完成事前定量。
明確問題所在,防止被“甩鍋”
?
明確問題所在,防止被“甩鍋”
?
中國企業(yè)家采訪報道,核酸系統(tǒng)看似簡單,但背后涉及到電信運營商、云服務(wù)平臺、運維系統(tǒng)、數(shù)據(jù)庫等多個供應(yīng)商,還要協(xié)調(diào)官方管理體系,在執(zhí)行層面就像裝滿水的木桶,抽掉任何一條木板,工作都會停擺。有時候某一家供應(yīng)商出現(xiàn)問題,就會影響整體工作。因此在系統(tǒng)正式上線后的日常運行中,了解用戶體驗情況,實時分析用戶所遇到的問題從而在用戶訪問過程中對波動情況進行及時分析極為重要。
這里推薦一套基調(diào)聽云壓測和性能監(jiān)控解決方案。這套方案首先可以幫我們明確以下幾點:系統(tǒng)正常運轉(zhuǎn)需要關(guān)注的指標;用戶體驗良好,這些指標需要達到什么樣的標準;系統(tǒng)不能達到預(yù)期瓶頸和問題根源所在。
基調(diào)聽云很明確的指出保障小程序用戶體驗良好需要關(guān)注的指標有:頁面加載耗時、卡頓率、操作可用性、請求耗時、JS錯誤率、請求錯誤率、onReady。

同時基調(diào)聽云也會給出每個指標的評分標準和行業(yè)參考值,最終產(chǎn)出一個性能評分,基于性能評分即可判斷系統(tǒng)的用戶體驗和可用性。
借助基調(diào)聽云的壓力測試產(chǎn)品即可基于軟件未來交付后需要支撐的用戶規(guī)模進行模擬壓力,通過逐步增加并發(fā)數(shù),可以看到頁面打開時間、接口響應(yīng)時間、卡頓率等關(guān)鍵指標等變化。

在看到前端用戶體驗的指標變化的同時,也能看到后端服務(wù)指標的變化,如下圖。

根據(jù)服務(wù)的指標再去分析性能變差的原因和錯誤率上升的原因。
分析性能變差可以通過請求分析、追蹤分析定位具體慢的原因。下圖是一個獲取數(shù)據(jù)庫連接超時造成的整個請求變慢。


錯誤是服務(wù)變差的重要信息,基調(diào)聽云的錯誤分析可以通過錯誤趨勢->錯誤列表->錯誤Message的匯總->Stracetace來由粗粒度到細粒度的逐層分析錯誤的原因。

一般來說造成服務(wù)錯誤率升高或者響應(yīng)時間變慢的原因是基礎(chǔ)組件問題導(dǎo),如JVM GC時間過長、CPU利用率過高、內(nèi)存不足、IO延遲過高、網(wǎng)卡帶寬占滿等。確認了服務(wù)問題后還可以進一步下鉆主機、進程、Pod等相關(guān)的指標信息,從而確認故障的根因。




基調(diào)聽云不僅僅在前期壓測工作可以提供幫助,在日常系統(tǒng)運行中,如用戶遇到性能問題,我們也可以快速定位該用戶的訪問軌跡,以及針對問題進行全鏈路追蹤問題定位??~
用戶訪問軌跡,可以看到每個用戶訪問系統(tǒng)的全過程以及是否發(fā)現(xiàn)性能問題,每一步都可以追蹤。

當接口慢的時候可以直觀分析是當前用戶網(wǎng)絡(luò)還是服務(wù)端響應(yīng)比較慢。

如果確認為服務(wù)端響應(yīng)慢,還可以進行深入的全鏈路追蹤到服務(wù)端,查看調(diào)用鏈路。系統(tǒng)會自動判斷疑似問題。

全方位可觀測體系建立,讓問題無所遁形
?
全方位可觀測體系建立,讓問題無所遁形
?
目前,疫情形勢仍十分嚴峻,各省市的核酸檢測機構(gòu)均承擔著較大的責(zé)任,因為其承擔著全省市級別的用戶,無論是對系統(tǒng)的容量、穩(wěn)定性還是網(wǎng)絡(luò)性能,都面臨著更為嚴格的挑戰(zhàn)和考驗。
此次成都核酸檢測系統(tǒng)崩潰事件,面對東軟突如其來的甩鍋行為,成都市疫情防控指揮部相關(guān)負責(zé)人對媒體表示是核酸系統(tǒng)對短時超大并發(fā)量預(yù)估不足,導(dǎo)致系統(tǒng)出現(xiàn)卡頓問題。四川省通信管理局隨后也第一時間自查網(wǎng)絡(luò)性能數(shù)據(jù)指標公布了系統(tǒng)運行數(shù)據(jù)確認了所出問題并非網(wǎng)絡(luò)層面,對這口鍋格擋并成功防守。
由此可見,在問題出現(xiàn)后,除了要保證自家系統(tǒng)性能穩(wěn)定,如何精準識別“甩鍋”和如何利用性能數(shù)據(jù)有理有據(jù)地“甩鍋”也是應(yīng)具備的技能。基調(diào)聽云新一代貫通全棧IT與業(yè)務(wù)的智能可觀測性平臺的五大層面能力升級:全棧數(shù)據(jù)采集、多維多源智能分析、以應(yīng)用和業(yè)務(wù)為中心、可觀測數(shù)據(jù)的縱橫融合打通、全方位可觀測。強調(diào)了數(shù)據(jù)所發(fā)揮的強大作用。智能可觀測性平臺的建立,可以極大的保障核酸檢測應(yīng)用系統(tǒng)的穩(wěn)定運行,從而保障市民權(quán)益。

新一代貫通全棧IT與業(yè)務(wù)的智能可觀測性平臺,通過對600+技術(shù)棧進行適配擴展,將追蹤、日志、指標、行為、業(yè)務(wù)等多源數(shù)據(jù)統(tǒng)一采集、處理和分析模型,構(gòu)建基調(diào)聽云可觀測中臺,納入現(xiàn)有技術(shù)實踐成果,對其進行融合分析,通過OneTrace模型展示整個應(yīng)用的調(diào)用結(jié)構(gòu),結(jié)合獨有的AI能力實現(xiàn)根因診斷、異常監(jiān)測、智能告警,形成完整的可觀測體系,最終建立基于業(yè)務(wù)分析的可視化模型,更深入的幫助用戶實現(xiàn)業(yè)務(wù)可觀測性。
隨著企業(yè)信息化的不斷推進IT基礎(chǔ)運維監(jiān)控的重要性日益凸顯,在it基礎(chǔ)運維監(jiān)控?中指標選擇是至關(guān)重要的。正確選擇監(jiān)控指標能幫助企業(yè)及時發(fā)現(xiàn)潛在問題,預(yù)測可能出現(xiàn)的故障從而有效避免損失,還可以大幅度的降低問題概率,監(jiān)控指標主要包括以下幾個方面:
2023-09-21
說起運維監(jiān)控,可能很多人都不是特別了解。因為現(xiàn)在很多企業(yè)對it系統(tǒng)的依賴程度越來越高,而為了確保it系統(tǒng)的高可用性和穩(wěn)定性,就需要it智能運維監(jiān)控的幫助。運維監(jiān)控是利用人工智能、大數(shù)據(jù)和自動化技術(shù),實現(xiàn)對it系統(tǒng)進行實時監(jiān)測和管理。那么,該運維監(jiān)控的特點是什么?
2023-11-23
智能化的運維管理系統(tǒng)是提升企業(yè)數(shù)字運維能力的必要舉措,它的流通度也因此變得越來越高。而它之所以可以保障網(wǎng)絡(luò)系統(tǒng)正常運行,這不僅因為新穎的智能運維管理系統(tǒng)可以智能預(yù)知故障報警,而且還因為它可以實時通知管理人員進行故障排查以及有效處理故障并跟蹤提示處理進度。
2023-07-27
智能運維管理系統(tǒng)是保障企業(yè)網(wǎng)絡(luò)業(yè)務(wù)正常運行的關(guān)鍵節(jié)點。這也是眾多企業(yè)對高效的運維管理系統(tǒng)信賴有嘉的根本原因之一,而它之所以被稱為IT資源超融合監(jiān)控,這不僅因為智能運維管理系統(tǒng)可面向網(wǎng)絡(luò)進行持續(xù)的IT業(yè)務(wù)監(jiān)控,而且還因為它可以實現(xiàn)三維立體全方位覆蓋式監(jiān)控,并且將網(wǎng)絡(luò)監(jiān)控與故障風(fēng)險研判處理相結(jié)合。
2023-07-27
移動應(yīng)用性能管理是指通過監(jiān)測、分析和優(yōu)化移動應(yīng)用程序的性能,以提高用戶體驗和應(yīng)用的穩(wěn)定性。它涵蓋了多種應(yīng)用形式,包括web應(yīng)用、APP、小程序和行為分析等。
2023-07-14



系電話.png)