告警嚴重度是什麼
在日常的打日誌過程中,我們經常會按照不同日誌級別來打日誌,在日誌級別中經常可以看到Info,Warn,Error,Crtical等級別,一般來說,越嚴重的日誌越值得關注,因為它可能意味著系統出現了嚴重的故障,導致不可用等行為。同樣,在監控系統中,如果在監控某不同指標時,如果指標的值偏離了我們設定的閾值,會觸發一條告警,這條告警也應該表明事件的嚴重程度,比如機器down機的問題要比CPU使用率超過70%的問題要更嚴重,同樣,CPU使用率達到90%要比CPU達到75%的問題要嚴重。
在SLS新版告警中使用告警嚴重度來表示告警觸發時的嚴重程度,在SLS新版告警中,支持在告警監控規則中配置告警嚴重度,告警嚴重度被分為報告,低,中,高,嚴重五種級別,在配置告警時可以指定當前告警觸發時的告警嚴重度;同時我們還支持動態告警嚴重度,根據監控指標值來動態設置告警嚴重度,為告警配置增加了更多的靈活性。在後文中會對動態告警嚴重度有詳細的介紹。
告警嚴重度有什麼用
一條告警觸發之後,如果只標明瞭告警嚴重度,在收到告警時,告警上的嚴重度可以決定我們對這條告警的處理方式,比如一條嚴重度為報告或者低的告警,直接忽略即可,但是對於嚴重級別的告警,我們就不能忽略了;同時,在SLS新版告警中還支持在行動策略中按照不同的嚴重度設置不同的處理方式,比如嚴重度為中的發送郵箱,嚴重度為高的發短信,嚴重度為嚴重的發送語音電話;或者根據不同的嚴重度發送給不同的組,嚴重度中的發給值班組,嚴重度為高發送給運維組。告警的嚴重度的作用主要體現在對告警的處理和降噪上,在SLS的告警策略和行動策略中,都支持根據告警嚴重度來設置,比如當嚴重的告警的產生時,可以抑制嚴重度為低的告警,可以參考告警抑制策略。
在SLS告警監控中配置告警嚴重度
靜態告警嚴重度
首先來看下靜態嚴重度,靜態嚴重度是指在告警監控規則中直接選擇告警嚴重度,如果被監控的指標滿足觸發條件,就會觸發告警,該告警在觸發時,會攜帶一個告警嚴重度的告警屬性,這條告警的嚴重度即為設置的嚴重度;這種情況一般對確定性的監控目標來設定。
下面以一個15分鐘內Nginx日誌的500錯誤次數為監控目標,來舉例說明告警嚴重度的設置。比
如在15分鐘內出現500錯誤的次數超過了10次,就觸發告警,這條告警的嚴重度設置為中,也就是錯誤次數達到11次或者80次,產生的告警嚴重度都是中,告警監控規則中配置的即為告警觸發時的嚴重度。
動態告警嚴重度
SLS新版告警的告警監控規則支持通過監控指標的值的範圍來設置動態嚴重度。動態告警嚴重度時指在配置監控規則時,我們可以根據監控指標的值的不同範圍,來指定不同的嚴重度,比如監控目標是CPU使用率,超過70%就告警,但是如果CPU使用率在80%以下,告警嚴重度為中;CPU使用率在90%以下嚴重度為高,在90%以上嚴重度為嚴重。
下圖展示了某監控指標的值在不同的區間時,產生的告警可以設置為不同的嚴重度,不同的顏色框標記不同的嚴重度,比如取值區間在0-20之間嚴重度為中(綠色顯示),20-40之間嚴重度為高(黃色顯示),40-60之間嚴重度是嚴重(紅色顯示)。
接下來以Nginx日誌為例,監控某站點的500錯誤環比昨天同時期,有沒有增高,如果有增高5%發出告警,同比超過100%時為嚴重,超過50%為高,其他超過10%時告警為中。
多條件判斷順序自上而下
設置動態告警嚴重度時,可以設置多個不同的“當...時嚴重度為...”,如上圖所示,在設置時需要把條件更嚴格的放在上面,條件更寬鬆的放在下面;比如ratio >= 1 比 ratio >= 0.5的條件為嚴格,所以ratio >= 1 需要放在上面,當且僅當上面的條件不滿足時,才會評估下面的條件,如果先判斷ratio >= 1 是否滿足,如果不滿足,會判斷 ratio >= 0.5,如果還不滿足,就會走到默認嚴重度。
默認嚴重度不可省略
在設置動態嚴重度時,默認嚴重度不可省略,默認嚴重度是一個託底行為,上面的所有條件都不滿足時,會匹配到默認嚴重度。
與觸發條件的關係
告警嚴重度中的條件設置與觸發條件中的評估表達式語法類似,告警嚴重度的判斷是在觸發條件判斷之後。觸發條件用來決定告警是否觸發,只有在觸發後,觸發產生一條告警,告警的嚴重度才有意義,一般情況下,動態告警嚴重度的條件需要比觸發條件設置的嚴格一些,比如上述例子中觸發條件是ratio > 0.05,動態嚴重度的設置條件可以設置為ratio >= 0.5和ratio >= 1
告警嚴重度在分組評估中的使用
在SLS新版告警監控中,有一個分組評估的設置,允許用戶對監控目標進行分組評估,告警嚴重度的判斷也是在分組之後進行的,會對每組產生的告警進行嚴重度評估。
比如可以同時監控不同ECS產生的監控數據,在配置對這些ECS的時序監控時,只需要分組條件設置為標籤自動,觸發條件設置為 value > 80%時,如下圖,host2,host3,host4會分別產生一條告警信息。
產生的告警如下
同理,動態告警嚴重度也會根據每組中的指標值,來判斷不同的嚴重度,比如我們在設置value > 95時告警嚴重度為嚴重,value > 90 時嚴重度為高;
則在上述例子中host3, host4產生的告警2和告警3為嚴重,host2產生的告警1嚴重度為高。
至此,在SLS新版中告警的嚴重度介紹就完畢了,其中主要涉及靜態告警嚴重度和動態告警嚴重度的設置,動態告警嚴重度的設置使得監控配置更加的靈活。
參考
進一步參考
- SLS(日誌服務)雲原生觀測分析平臺:https://www.aliyun.com/product/sls
- SLS新版告警文檔首頁:https://help.aliyun.com/document_detail/207609.html
- 歡迎掃群加入阿里雲-日誌服務(SLS)技術交流(集團同學請直接搜索群號11702236加入), 獲得第一手資料與支持
- 後續系列直播與培訓視頻會同步到B站,敬請留意