開發與維運

TAC在專有云項目中的應用實踐

1.前言

TAC(TAM Alarm Center)是專有云現場運維對監控報警解決方案的最佳實踐,為專有云客戶提供靈活的、多樣化的監控報警解決方案,以此提升專有云平臺和產品的故障發現率,保障客戶系統的穩定運行。TAC功能豐富、多樣且靈活,能夠覆蓋多種應用場景,滿足多樣的監控及告警需求,本文選擇部分項目的最佳實踐和應用進行展示。

1.基本功能

1.1告警接入

圖1:封神榜告警接入方案.png

圖1:封神榜告警接入方案

產品團隊:研發團隊提供監控能力
封神榜:封裝產品監控,並調用TAC的API網關接口上報告警
TAC:提供API網關服務,並進行告警的展示和通知

1.2短信告警

場景:某項目現場需要將平臺側P0級告警、現場工具巡檢結果通過短信外發給相關人員以及時獲取監控告警信息。
方案:使用TAC本身告警匯聚能力匯聚雲內多渠道告警,並使用TAC集成的本地化短信服務方式實現告警通知。
圖2:短信告警效果展示.png

圖2:短信告警效果展示

1.3站點監控

場景:某客戶現場有應用監控需求,希望TAC可以定時監控該項目的門戶網站和運營管理平臺。
方案:使用TAC集成的站點監控HTTPCODE和釘釘方式實現監控告警通知。
圖3:站點監控效果展示.png

圖3:站點監控效果展示

2.擴展解決方案

2.1 Maxcomput和Datawokrs資源告警

某項目使用Maxcomput和Dataworks兩個產品承載主要的業務應用,需要對Maxcomput的資源使用情況和Dataworks的槽位使用情況進行監控並告警,以在第一時間發現問題,並通知運維人員處理。
圖4:Maxcomput和Datawokrs資源告警效果展示.png

圖4:Maxcomput和Datawokrs資源告警效果展示

2.2告警推送第三方

某項目需要將雲平臺的告警通過釘釘發送給現場駐場或相關負責人,減少盯屏的人力成本,從而減少問題處理的時間,最終減少對業務的影響時間。
圖5:告警推送第三方方案.png

圖5:告警推送第三方方案

數據採集:使用TAC實現告警採集

  • 平臺核心實例資源使用率告警管理、P0/P1告警統一管理
  • 應用業務可用性監控告警

數據推送:TAC調用api網關接口,將告警數據寫入消息中心
數據接收:通過消息中心服務將告警數據推送到釘釘機器人,釘釘群接收消息中心推送的告警數據。
圖6:告警通知效果展示.png

圖6:告警通知效果展示

作者:黃家亮

阿里雲智能GTS-SRE團隊資深技術支持工程師

7年IT從業經驗超3年阿里專有云運維管理經驗,現就職於阿里雲智能GTS-SRE團隊負責運維開發工作,期間深度參與並負責銅雀、TAM企業服務運營管理平臺及TAC報警中心三個系統從0到1的建設工作,有效提高專有云運維能力和效率。

Leave a Reply

Your email address will not be published. Required fields are marked *