開發與維運

TAC報警中心: 專有云告警生命週期一站式管理運維平臺

本文始發於:雲棲社區
時間:2020-06-01
原文鏈接:https://yq.aliyun.com/articles/763123

TAC報警中心是阿里雲SRE團隊為專有云精心打造的一站式告警運維平臺,覆蓋專有云所涉及的雲產品、大數據、雲實例以及用戶所涉及的站點應用等告警,提供告警生命週期管理以及報警外發等解決方案。幫助專有云快速發現、定位異常問題,協助產品團隊進行產品優化。

1 功能特點

1.1 告警匯聚

  • 默認集成:雲平臺、大數據、雲實例、站點應用
  • 支持擴展:自定義監控

1.2 報警通道

  • 釘釘、本地化釘釘
  • 短信設備、公共雲短信服務
  • 企業郵箱

2 平臺體系

image.png

圖1:TAC平臺體系

3 架構設計

image.png

圖2:TAC架構設計

4 界面展示

image.png

圖3:TAC界面展示

5 主要功能

5.1 告警中心

  • 展示TAC平臺當前所有的告警數據,並顯示近7天的產品告警TOP排行

5.2 告警工作臺

  • 用戶可以在平臺告警頁面上認領新增的待處理告警,線下處理完成後可以在我的告警頁面上關閉該告警
  • 當認領了自己不擅長處理的產品告警,可以通過線上轉發的方式移交給擅長處理的同學
  • 若出現長期無法處理的告警,在確認無影響的情況下可以選擇忽略該告警,避免一直外發造成消息轟炸
  • 展示當前告警總數、待處理告警數、已關閉的告警數以及近7天的MTTR和平均MTTR

5.3 策略中心

  • 可以通過設置自動分派策略,當指定的產品出現告警後會自動為該用戶認領告警
  • 當天首次出現的告警會立即通知,非首次出現的告警需要遵循1440分鐘的靜默期後通知
  • 可以控制告警發送時的狀態,發生時、認領時、關閉時
  • 可以預約在指定的時間範圍內使某一類型的告警進入靜默期,告警外發暫時失效

5.4 推送配置

  • 提供用戶體系,系統會識別用戶的手機號碼以及郵箱地址來發送告警
  • 提供釘釘、短信、郵件的外發配置頁面

5.5 系統配置

  • 可以在實例管理頁面手動創建或導入需要監控的實例列表
  • 例如項目未部署大數據產品可以在菜單管理頁面通過禁用的方式控制首頁的告警展示
  • 當想同時管理多朵雲時,可以在配置管理頁面創建多個節點,配置多個節點的告警數據接口
  • 當數據源有監控能力增加時,TAC無需升級,只需在監控管理頁面增加監控項名稱即可具備監控能力

5.6 站點監控配置

  • 在監控任務頁面可以配置用戶關心的網站、機器或某個接口,TAC會根據規則進行監控
  • 若現場以前有提供過黑屏化的監控工具,用戶可以在註冊API頁面註冊一個APP,根據接口調用規範將監控結果上報至TAC來展示和外發
  • 目前,中國區100+項目已部署TAC,其中有40%+的項目可以通過釘釘、短信或郵件的方式實現告警外發。有效提高告警處理效率,減少因告警未及時處理導致故障的情況,大幅提高項目運維質量,減少項目人力投入成本。

作者:黃家亮

阿里雲智能GTS-SRE團隊資深技術支持工程師

7年IT從業經驗,超3年阿里專有云運維管理經驗,現就職於阿里雲智能GTS-SRE團隊,負責運維開發工作,期間深度參與並負責銅雀、TAM企業服務運營管理平臺以及TAC報警中心三個系統從0到1的建設工作,有效提高專有云運維能力和效率。

我們是阿里雲智能全球技術服務-SRE團隊,我們致力成為一個以技術為基礎、面向服務、保障業務系統高可用的工程師團隊;提供專業、體系化的SRE服務,幫助廣大客戶更好地使用雲、基於雲構建更加穩定可靠的業務系統,提升業務穩定性。我們期望能夠分享更多幫助企業客戶上雲、用好雲,讓客戶雲上業務運行更加穩定可靠的技術,您可用釘釘掃描下方二維碼,加入阿里雲SRE技術學院釘釘圈子,和更多雲上人交流關於雲平臺的那些事。
image.png

Leave a Reply

Your email address will not be published. Required fields are marked *