開發與維運

封神榜:智能運維服務助手

本文始發於:雲棲社區
時間:2020-05-29
原文鏈接:https://yq.aliyun.com/articles/762971

封神榜是SRE團隊提供的從業務、產品、安全、故障四個維度對項目進行全方位監控的運維服務工具,可實現為不同關注點的客戶提供問題、故障、性能、容量、優化建議等運維內容推送。幫助現場第一時間發現問題與故障並量化,提高複雜問題定位與處理的效率,補全雲平臺監控視角與部分運維能力的缺失,可以自助報告的方式使客戶對雲平臺運行情況有全面的瞭解。封神榜定義了現場負責不同工作的機器人,作為現場服務的智能助手,通過SRE方法提升並標準化運維服務底線,提供更優質的智能主動服務,幫助客戶保障業務穩定性,實現業務價值。

1 功能定位

  • 穩定性是基礎:被動響應轉變為主動監控,提前預知可能導致故障的問題,故障時快速排查定位解決。
  • 增強運維服務:自動化的優化報告、運維報告、容量報告等方式,減少人工收集信息的工作,自動化為主。
  • 補全監控短板:提供用戶視角監控,彌補客戶更關注的業務多維度視角內容,自動推動關鍵指標數據,全方位地為項目穩定運行保駕護航。

2 四大視角服務目標

2.1 業務視角

為客戶提供性能、容量、異常等事件級別的預警、報警,幫助客戶自發現應用問題,進行優化。

2.2 雲平臺視角

通過預警、報警、播報的模式,提高雲平臺監控的全面性、時效性、易用性。

2.3 客戶視角

定期推送實例的容量報告、性能報告、優化報告、雲平臺運行日報週報等。
通過主動性運維,幫助客戶進行優化,通過服務的方式輸出運維效果。

2.4 故障視角

對故障SLA量化,定義、監控、告警,第一時間發現雲平臺與業務故障。
image.png
圖1:

3 應用實踐

3.1 MQ實例監控

場景:在某項目中,客戶需要獲取MQ最新的消費情況,並對MQ集群的空間大小進行監控。
方案:使用封神榜建立定製化採集能力,通過封神榜client採集MQ監控信息,封神榜server端匯聚告警信息推送釘釘告警。
image.png
image.png

圖2:MQ實例監控效果展示

3.2 安全事件告警

場景:專有云項目中雲盾告警較多,需要盯屏查看,容易忽略告警信息。
方案:由封神榜client實時獲取雲盾告警數據,出現告警立即發送到告警群。
image.png
image.png

圖3:安全事件告警效果展示

封神榜相關功能,仍在不斷優化中,我們將以提供優質運維服務為目標,穩定運行為基礎,為客戶提供更多服務,敬請期待!

作者:郭雷

阿里雲智能GTS-SRE團隊技術服務經理

曾就職500強與民航系統內,多年數據中心、雲計算、大數據運維工作經驗,擅長靈活運用多種手段解決複雜場景問題。現就職於阿里雲智能GTS-SRE團隊,負責中國郵政、醫保局、國家氣象局、電力等項目。

我們是阿里雲智能全球技術服務-SRE團隊,我們致力成為一個以技術為基礎、面向服務、保障業務系統高可用的工程師團隊;提供專業、體系化的SRE服務,幫助廣大客戶更好地使用雲、基於雲構建更加穩定可靠的業務系統,提升業務穩定性。我們期望能夠分享更多幫助企業客戶上雲、用好雲,讓客戶雲上業務運行更加穩定可靠的技術,您可用釘釘掃描下方二維碼,加入阿里雲SRE技術學院釘釘圈子,和更多雲上人交流關於雲平臺的那些事。
_image.png

Leave a Reply

Your email address will not be published. Required fields are marked *