開發與維運

阿里雲智能巡檢管家特點優勢與應用場景

作為阿里云云平臺告警信息與監控的統一門戶銅雀專注於智能化巡檢及問題診斷,是阿里雲SRE混合雲TAM和駐場服務團隊日常工作中的首要工具。它能將TAM和駐場服務團隊從日常繁瑣的巡檢工作中解放出來,將精力投入到更有價值的客戶服務中去,通過打通雲平臺側、租戶側及應用側的信息,輔助應用運維及優化,並通過工具化手段提升現場問題分析定位的能力和速度。

1 主要服務及功能

銅雀主要為客戶、業務應用開發商、TAM、駐場提供以下服務:

  • 客戶:瞭解雲平臺的健康狀況和資源使用情況,通過對歷史發展趨勢的分析,發現可能的資源缺口和擴容需求
  • 業務應用開發商:通過銅雀分析可能導致線上應用問題的原因或提供排查方向
  • TAM:通過銅雀發現雲平臺或業務應用所存在的風險和問題,並跟進處理
  • 駐場:使用銅雀簡化日常的運維類工作,並提升工作效率。比如:一鍵巡檢、駐場日報自動生成、白屏化分析工具等

目前銅雀版本已經演進到V3944版本,建議使用企業版專有云V3.6或以上版本的用戶都升級到此版本。V2版本現已停止開發,只做維護與支持。不同版本支持的功能點差異如下圖所示:
_
圖1:銅雀版本功能差異

2 應用場景

銅雀主要有如下一些典型的應用場景。

2.1 駐場巡檢

通過將巡檢動作標準化、白屏化、自動化,避免了人工巡檢操作可能帶來的風險,降低了對駐場人員的技能要求,提升了現場人員的工作效率。
_
圖2:巡檢結果

2.2 線上線下協同

日常巡檢結果通過二維碼或駐場日報回傳,後端診斷分析並推送給客戶,使客戶實時瞭解雲平臺運行情況。

2.3 業務應用分析

以業務應用的角度對系統指標進行分析,發現業務系統存在的問題或瓶頸,輔助應用進行優化及問題排查。
_
圖3:業務應用分析

2.4 雲平臺總覽

用戶可通過Dashboard頁面總覽雲平臺的資源及健康狀態。
_
圖4:雲平臺總覽

2.5 自動化任務執行

駐場人員可根據各局點的業務特點,靈活定製各種任務的執行時間,從繁複的人肉巡檢工作中解脫出來。
_
圖5:自動化任務執行

2.6 插件化的升級方式

不依賴專有云大版本的發佈週期,可獨立實現功能升級,通過系統的快速迭代,滿足對運維工作的需求。

2.7 白屏自升級

風險較小,升級操作複雜度更低,相對於黑屏升級可避免很多誤操作。

2.8 智能診斷

通過簡單快捷的搜索導航,將常用的基礎信息整合在一起,結合日常運維高頻使用的工具和監控圖表,實現對日常問題排查診斷的提效,減少運維人員頻繁在多個控制檯進行切換,降低黑屏操作風險。
_
圖6:智能診斷效果展示

2.9 日誌清理

日誌清理是在定時任務的基礎上,開發的一個基於模板配置的日誌清理功能,可基於多種配置策略清理雲產品的日誌,大大減少日常運維工作中的黑屏手動清理變更數量。
_
圖7:日誌清理效果展示

銅雀目前作為專有云企業版的標準輸出產品,已經能夠100%覆蓋V3平臺的局點。目前銅雀的功能主要是以巡檢為中心,後續將逐漸將故障應急、高頻變更、問題診斷能力補充上來,並將銅雀的基礎能力開放出來,使產品、駐場、TAM等人員的經驗不斷沉澱到系統中,打造以銅雀為中心的運維生態圈。

雲服務器ECS地址:阿里雲·雲小站

Leave a Reply

Your email address will not be published. Required fields are marked *