本文始發於:雲棲社區
時間:2020-06-01
原文鏈接:https://yq.aliyun.com/articles/763125
作為阿里云云平臺告警信息與監控的統一門戶,銅雀專注於智能化巡檢及問題診斷,是阿里雲SRE混合雲TAM和駐場服務團隊日常工作中的首要工具。它能將TAM和駐場服務團隊從日常繁瑣的巡檢工作中解放出來,將精力投入到更有價值的客戶服務中去,通過打通雲平臺側、租戶側及應用側的信息,輔助應用運維及優化,並通過工具化手段提升現場問題分析定位的能力和速度。
1 主要服務及功能
銅雀主要為客戶、業務應用開發商、TAM、駐場提供以下服務:
- 客戶:瞭解雲平臺的健康狀況和資源使用情況,通過對歷史發展趨勢的分析,發現可能的資源缺口和擴容需求
- 業務應用開發商:通過銅雀分析可能導致線上應用問題的原因或提供排查方向
- TAM:通過銅雀發現雲平臺或業務應用所存在的風險和問題,並跟進處理
- 駐場:使用銅雀簡化日常的運維類工作,並提升工作效率。比如:一鍵巡檢、駐場日報自動生成、白屏化分析工具等
目前銅雀版本已經演進到V3944版本,建議使用企業版專有云V3.6或以上版本的用戶都升級到此版本。V2版本現已停止開發,只做維護與支持。不同版本支持的功能點差異如下圖所示:
圖1:銅雀版本功能差異
2 應用場景
銅雀主要有如下一些典型的應用場景。
2.1 駐場巡檢
通過將巡檢動作標準化、白屏化、自動化,避免了人工巡檢操作可能帶來的風險,降低了對駐場人員的技能要求,提升了現場人員的工作效率。
圖2:巡檢結果
2.2 線上線下協同
日常巡檢結果通過二維碼或駐場日報回傳,後端診斷分析並推送給客戶,使客戶實時瞭解雲平臺運行情況。
2.3 業務應用分析
以業務應用的角度對系統指標進行分析,發現業務系統存在的問題或瓶頸,輔助應用進行優化及問題排查。
圖3:業務應用分析
2.4 雲平臺總覽
用戶可通過Dashboard頁面總覽雲平臺的資源及健康狀態。
圖4:雲平臺總覽
2.5 自動化任務執行
駐場人員可根據各局點的業務特點,靈活定製各種任務的執行時間,從繁複的人肉巡檢工作中解脫出來。
圖5:自動化任務執行
2.6 插件化的升級方式
不依賴專有云大版本的發佈週期,可獨立實現功能升級,通過系統的快速迭代,滿足對運維工作的需求。
2.7 白屏自升級
風險較小,升級操作複雜度更低,相對於黑屏升級可避免很多誤操作。
2.8 智能診斷
通過簡單快捷的搜索導航,將常用的基礎信息整合在一起,結合日常運維高頻使用的工具和監控圖表,實現對日常問題排查診斷的提效,減少運維人員頻繁在多個控制檯進行切換,降低黑屏操作風險。
圖6:智能診斷效果展示
2.9 日誌清理
日誌清理是在定時任務的基礎上,開發的一個基於模板配置的日誌清理功能,可基於多種配置策略清理雲產品的日誌,大大減少日常運維工作中的黑屏手動清理變更數量。
圖7:日誌清理效果展示
銅雀目前作為專有云企業版的標準輸出產品,已經能夠100%覆蓋V3平臺的局點。目前銅雀的功能主要是以巡檢為中心,後續將逐漸將故障應急、高頻變更、問題診斷能力補充上來,並將銅雀的基礎能力開放出來,使產品、駐場、TAM等人員的經驗不斷沉澱到系統中,打造以銅雀為中心的運維生態圈。
作者:劉維
阿里雲智能GTS-SRE團隊技術服務經理
現就職於阿里雲智能GTS-SRE團隊,是專有云企業版巡檢產品——銅雀的首席研發專家、應用專家、技術專家組成員。具有多年Java開發、調優、排錯經驗,擁有豐富的運維支持經驗,幫助專有云客戶解決應用和運維難題。
我們是阿里雲智能全球技術服務-SRE團隊,我們致力成為一個以技術為基礎、面向服務、保障業務系統高可用的工程師團隊;提供專業、體系化的SRE服務,幫助廣大客戶更好地使用雲、基於雲構建更加穩定可靠的業務系統,提升業務穩定性。我們期望能夠分享更多幫助企業客戶上雲、用好雲,讓客戶雲上業務運行更加穩定可靠的技術,您可用釘釘掃描下方二維碼,加入阿里雲SRE技術學院釘釘圈子,和更多雲上人交流關於雲平臺的那些事。