開發與維運

阿里雲TAC報警中心功能特點與適用場景

TAC報警中心是阿里雲SRE團隊為專有云精心打造的一站式告警運維平臺,覆蓋專有云所涉及的雲產品、大數據、雲實例以及用戶所涉及的站點應用等告警,提供告警生命週期管理以及報警外發等解決方案。幫助專有云快速發現、定位異常問題,協助產品團隊進行產品優化。

1 功能特點

1.1 告警匯聚

  • 默認集成:雲平臺、大數據、雲實例、站點應用
  • 支持擴展:自定義監控

1.2 報警通道

  • 釘釘、本地化釘釘
  • 短信設備、公共雲短信服務
  • 企業郵箱

2 平臺體系

TAC_
圖1:TAC平臺體系

3 架構設計

TAC_
圖2:TAC架構設計

4 界面展示

TAC_
圖3:TAC界面展示

5 主要功能

5.1 告警中心

  • 展示TAC平臺當前所有的告警數據,並顯示近7天的產品告警TOP排行

5.2 告警工作臺

  • 用戶可以在平臺告警頁面上認領新增的待處理告警,線下處理完成後可以在我的告警頁面上關閉該告警
  • 當認領了自己不擅長處理的產品告警,可以通過線上轉發的方式移交給擅長處理的同學
  • 若出現長期無法處理的告警,在確認無影響的情況下可以選擇忽略該告警,避免一直外發造成消息轟炸
  • 展示當前告警總數、待處理告警數、已關閉的告警數以及近7天的MTTR和平均MTTR

5.3 策略中心

  • 可以通過設置自動分派策略,當指定的產品出現告警後會自動為該用戶認領告警
  • 當天首次出現的告警會立即通知,非首次出現的告警需要遵循1440分鐘的靜默期後通知
  • 可以控制告警發送時的狀態,發生時、認領時、關閉時
  • 可以預約在指定的時間範圍內使某一類型的告警進入靜默期,告警外發暫時失效

5.4 推送配置

  • 提供用戶體系,系統會識別用戶的手機號碼以及郵箱地址來發送告警
  • 提供釘釘、短信、郵件的外發配置頁面

5.5 系統配置

  • 可以在實例管理頁面手動創建或導入需要監控的實例列表
  • 例如項目未部署大數據產品可以在菜單管理頁面通過禁用的方式控制首頁的告警展示
  • 當想同時管理多朵雲時,可以在配置管理頁面創建多個節點,配置多個節點的告警數據接口
  • 當數據源有監控能力增加時,TAC無需升級,只需在監控管理頁面增加監控項名稱即可具備監控能力

5.6 站點監控配置

  • 在監控任務頁面可以配置用戶關心的網站、機器或某個接口,TAC會根據規則進行監控
  • 若現場以前有提供過黑屏化的監控工具,用戶可以在註冊API頁面註冊一個APP,根據接口調用規範將監控結果上報至TAC來展示和外發

目前,中國區100+項目已部署TAC,其中有40%+的項目可以通過釘釘、短信或郵件的方式實現告警外發。有效提高告警處理效率,減少因告警未及時處理導致故障的情況,大幅提高項目運維質量,減少項目人力投入成本。

雲服務器ECS地址:阿里雲·雲小站

Leave a Reply

Your email address will not be published. Required fields are marked *