開發與維運

SLS新版本告警入門——告警策略_抑制和靜默

概述

在告警管理的過程中,除了通過路由合併來進行降噪,減少通知次數之外,還有一些更加高級的場景,例如需要暫時不發送通知。這就是告警抑制和告警靜默所提供的功能。

告警靜默

告警靜默用來阻止一段時間內符合特定規則的告警發出通知。例如某個時間段內,某個測試集群在維護,會產生一些預期內的告警,此時因為這些告警是在預期之內的,因此沒有通知的必要,那麼就可以通過配置靜默規則來阻止通知的發送。

例如:

  • 符合特定規則:告警標籤 env 的值為 test
  • 一段時間:2021-06-22 00:00:00 ~ 2021-06-22 12:00:00

那麼配置參考為:

1.png

當然,也可以進行反向配置,例如配置只接受滿足條件的告警,對於其它不符合條件的告警都不通知。繼續上面的例子,假如這段時間內我們只接收標籤 env 為 prod 的告警,對於其它環境的告警都不接收通知,那麼可以配置為:

2.png

告警抑制

告警抑制與告警靜默比較類似,最終效果也是不發送某些告警通知。與靜默相比,抑制是一個動態的作用,表示的是告警之間的相互影響。例如某個集群網絡故障可能導致大量的服務調用錯誤,此時根本原因是網絡故障,因此可以暫時忽略服務調用錯誤,只接收網絡故障的告警通知,從而可以只收到最根本的錯誤原因,有利於快速定位和恢復。或者當產生了嚴重的告警的時候,可以暫時不接收低級別的故障,避免被打擾到。

由於抑制表示的是告警之間的相互影響,因此抑制是具有動態時效性的。也就是說,產生抑制的告警,一旦恢復了,那麼這個抑制的作用也就消失了。因此,抑制作用的時間,其實是和產生抑制的告警的生命週期相對應的。

例如我們配置高嚴重度的告警抑制低級別的告警,那麼可以配置如下:

3.png

另外需要注意的是,抑制的生效前提是,兩個告警要處於同一個合併集合內。例如下面的示例:

4.png

抑制和靜默的關係

從本質上來說,抑制其實是產生了一條動態的靜默規則,最終的效果都是在通知發送之前,根據靜默規則(靜態的靜默規則以及抑制產生的動態靜默規則)進行過濾,然後只發送過濾後的告警通知。


最後,如果您還想了解更多智能運維前沿資訊,歡迎您報名參加【數智創新行·智能運維專場】。

6月25日|上海·西岸國際人工智能中心

數智創新行上海站·智能運維專場

阿里雲將帶來雲原生智能運維解決方案,滿足海量事件有效感知、高效響應,可觀測數據統一分析、故障定位,以及基於AI的異常檢測等需求,助力企業構建自己的運維平臺,成為開發、運維人員高效可靠的助手。

掃描海報二維碼或點擊下方鏈接報名, 期待您一起開啟智能運維新時代!

https://www.aliyun.com/page-source//developer/special/osssalon

20210625_智能運維專場.png

Leave a Reply

Your email address will not be published. Required fields are marked *