開發與維運

這才是可觀測告警運維平臺——20個SLS告警運維場景

前言

本篇是SLS新版告警系列宣傳與培訓的第二篇,後續我們會推出20+系列直播與實戰培訓視頻,敬請關注。

系列目錄(持續更新)

1. 新版SLS告警介紹

1.1. 常規告警運維繫統的痛點

可觀測性對於告警監控運維繫統是有很高的要求的,但現狀卻不容樂觀,我們可以看到常規監控運維繫統存在如下6大痛點

image.png

具體展開細化如下:

image.png

1.2. 新版SLS新版告警發佈

SLS新版告警在中國站等發佈公測(國際站預計4月發佈),新版在SLS雲原生可觀測性平臺上提供了一站式智能運維告警系統。新版告警提供對日誌、時序等各類數據的告警監控,亦可接受三方告警,對告警進行降噪、事件管理、通知管理等,新增40+功能場景,充分考慮研發、運維、安全以及運營人員的告警監控運維需求。

image.png

1.3. 五大優勢

使用SLS新版告警,可以有效緩解前面提到的告警運維繫統的痛點,和其他自建、商業化或雲廠商提供的方案比,具備如下5大優勢:

image.png

2. 20類功能場景展示

場景樣例1:日誌、時序、跟蹤一套查詢分析語法

對日誌、指標、跟蹤等數據,提供一套通用語法,SLS告警監控的支持大規模日誌/時序/跟蹤等實時監控,而查詢統計語法也是使用通用統一的SQL(並擴展)的方式提供。也就是SQL = Search + PromQL + SQL92。

例如對特定機器是否在線監控,可以使用SQL、PromQL、或者兩者子查詢協同、甚至多層嵌套使用機器學習的算法來找出異常。

image.png

場景樣例2:豐富的機器學習算法支持

SLS的機器學習算法是直接在SQL擴展方式提供,覆蓋了以下4個場景:

image.png

場景樣例3:全局監控

不需要同步數據到本地,即可跨庫、跨區域、甚至跨賬號的監控並告警。

image.png

場景樣例4:多數據源協同

支持多個(可不同)數據源之間的協同

image.png

場景樣例5:多目標監控與黑白名單

一條規則可以同時監控日誌/時序庫中的多個邏輯目標,可分開告警,且支持自定義白名單或黑名單(只針對多目標監控時自動專注或排除)。

image.png

場景樣例6: 動態設置告警嚴重度

支持根據檢測值動態設置告警的嚴重度。

image.png

場景樣例7:內置告警監控規則庫

內置各場景下告警規則庫 (500+),開箱即用,且持續增加中。

image.png

場景樣例8:告警靜默

可以基於告警來源規則的屬性(區域、項目、規則名等),也可以基於告警自身的屬性(狀態、標籤、標註、嚴重度等)抑制告警。

image.png

場景樣例9:告警抑制

一個告警可以抑制(忽略)其他的告警,可有效阻止因為一次嚴重告警觸發的告警風暴

image.png

場景樣例10:路由合併降噪

支持將告警歸類分派到多個合併集合中,進一步的降噪控制(去重、合併等)後,合併發送(通過行動策略)。

image.png

  • 合併集合中,多個告警重複發送會自動去重,在集合首次變化時發送,或不變時延遲發送。

image.png

場景樣例11:事件(Incident)階段管理

自動給告警創建事件(Incident),可對其確認、解決、忽略、設置處理人、註釋等操作。

image.png

場景樣例12:告警態勢大盤

提供多張告警態勢大盤:監控規則中心、告警鏈路中心、告警排錯中心、監控規則執行報表等。

image.png

場景樣例13:通知渠道分派

可以自由按照告警的屬性,將對告警分派給不同人和渠道。

image.png

場景樣例14: 日曆與工作時段感知

可以自定義日曆的時區、工作時段、自動同步節假日,亦可重置。通知渠道自動感知。

  • 案例: 發生告警時,工作日發送短信、釘釘、郵件;法定假日(如國慶長假)和週末時僅發送郵件。
  • 案例: 發生嚴重告警時,工作時段發短信、釘釘、郵件;非工作時段額外打電話。

image.png

場景樣例15:告警通知升級

在事件(Incident)一直處於特定未完成狀態時可觸發通知升級(例如直接打電話、或通知組長等)。

image.png

場景樣例16:獨立的接收人/組管理

  • 支持獨立的接收人、組的管理。

image.png

場景樣例17:值班組/表-輪崗

  • 支持創建值班組,選擇特定的時間段對象(可以是組)、輪崗交班方式後,自動排班。

image.png

  • 可預覽最終排班效果:

image.png

  • 亦可按細膩度分排班:

image.png

  • 可以針對特定不連續的時間段排班

image.png

場景樣例18:值班組/表-代班

值班人員臨時不能值班時,可由他人代班,自動替代原有值班人員值班,可預覽效果。

image.png

場景案例19:內置渠道擴展

  • 原生內置支持語音(電話)、短信、郵件、釘釘(群機器人)、阿里雲管理員消息中心等
  • 短信、語音(電話)支持國際手機號。
  • 支持Webhook靈活定製,可支持企業微信、Slack、飛書等通知渠道。

image.png

  • 提供內容模板定製格式、甚至可以引用變量

image.png

場景案例20:渠道額度控制

支持設置默認、特定人、特定組的短信、郵件、語言的渠道額度,且支持隔離控制。

image.png

3. 進一步參考

image.png

  • 後續系列直播與培訓視頻會同步到B站,敬請留意

image.png

Leave a Reply

Your email address will not be published. Required fields are marked *