開發與維運

SLS開放告警簡介

背景介紹

監控告警系統作為最為常用的服務,能夠讓開發運維人員時刻了解服務的當前狀態,並及時得知服務的異常,進而快速定位問題,降低服務異常帶來的損失。 Sass公司、開源界也針對這個領域提供了各自的方案,較為常用的系統包括zabbix、prometheus、grafana、open-falcon、pagerduty等。眾多的解決方案為開發運維人員帶來選擇性的同時,也帶來了監控數據、告警消息統一查詢的問題,開發人員需要到各個孤立的系統中檢索。SLS為了解決告警消息統一管理的問題,推出了開放告警,方便開發運維人員將多個不同監控告警系統發出的告警消息採集到SLS中。

image.png

開放告警

三方系統接入SLS開放告警大致分為下圖所示的6個步驟,下面分別詳細介紹下每個步驟:

image

接入流程

進入新版SLS告警

首先進入SLS的任意一個Project,點擊左側的告警按鈕圖表,隨後點擊"打開告警中心按鈕",即可進入新版SLS告警管理界面。其中"規則和事物"用於查看和管理告警規則和告警事件,"告警管理"菜單用於管理客戶在新版SLS告警中的資產。

image

配置SLS告警

開放告警依賴於新版SLS告警中的部分配置項:

配置項

是否必須

說明

文檔鏈接

用戶

接收告警通知的用戶,包括多種不同的通知渠道,比如手機/釘釘/郵箱

創建用戶和用戶組

用戶組

接收告警通知的用戶組,可以在用戶組中配置多個用戶

創建用戶和用戶組

內容模板

告警消息顯示內容以及顯示格式,可以給不同的通知渠道配置不同的內容模板

創建內容模板

行動策略

開放告警服務收到告警消息後的通知行為,比如發給哪個用戶或者用戶組,使用哪個內容模板展示告警消息的內容

創建行動策略

告警策略

開放告警接收到告警消息後的通知策略,包括告警消息合併策略以及行動策略等

創建告警策略

在上述配置項中,用戶和行動策略屬於必填項,其餘三項配置為可選配置。

用戶

點擊用戶管理按鈕,打開告警中心的用戶管理界面,就可以創建新的告警用戶。用戶信息主要包括手機號碼以及郵箱,此處需注意保證手機號碼以及郵箱的正確性。

image       image

用戶組

點擊用戶組管理按鈕,打開告警中心的用戶組管理界面,就可以創建新的告警用戶組。在選擇框中選擇之前創建的部分或者全部用戶,即可完成用戶組配置,最後點擊確認完成創建。

image    image

內容模板

新版SLS告警通過內容模板定義發送給用戶的消息,而且支持給每個通知渠道配置各自的告警內容,用戶可以通過在內容模板中添加模板變量來定製化告警消息的內容。剛開始使用的時候,用戶可能不太清楚如何配置所有渠道的內容模板,這時留空即可,SLS會替換為默認的內容,減輕了開始的配置負擔。

image

行動策略

行動策略較為重要,雖然SLS有默認的行動策略供用戶選擇。但是在使用開放告警的時候,建議用戶創建新的行動策略。右鍵點擊開始按鈕,選擇添加行動組,在出現的行動組配置框中選擇合適的信息即可。詳情請參考創建行動策略獲取更多信息。

image

告警策略

告警策略不是必須的,用戶在使用開放告警的時候可以省略。同樣是在告警策略創建窗口中,右鍵點擊開始按鈕,選擇添加分組合並,在出現的分組合並配置框中選擇合適的信息即可。詳情請參考創建告警策略獲取更多信息。

image

創建開放告警服務

配置完開放告警依賴的基本配置,就可以開始創建開放告警服務。開放告警服務主要用來對開放告警應用進行管理,配置簡單,只有ID和名稱兩項。

image

創建開放告警應用

在創建好的開放告警服務中,點擊應用按鈕,即可看到開放告警應用管理界面。開放告警應用的配置項比較多,下面逐一介紹下。

image

協議認證

協議認證用於配置接入的告警消息格式,目前支持Prometheus和grafana兩種協議,後面會添加更多的協議支持。

image

行動策略

行動策略規定了開放告警服務收到告警消息後的通知行為,比如發給哪個用戶或者用戶組,使用哪個內容模板展示告警消息的內容。用戶可以選擇內置的行動策略(不建議),也可以選擇自定義行動策略(推薦)。

image

密鑰ID白名單

默認是禁用狀態,開啟之後,只有配置了的access key id才能夠向該開放告警應用發送告警消息。

image

請求過濾

請求過濾用於配置一組關鍵字,只有告警消息中包含其中任一個關鍵字,該消息才能發送出去,不然會被丟棄,默認為空;

image

信息加工

信息加工用於為告警消息添加額外的信息,包括標籤和標註兩項,這兩項都是健值對;其中標籤同告警分組邏輯相關;默認為空。

image

額度

額度限制了該開放告警應能每分鐘能夠接收的告警消息數量,默認為100,最大值為10000。

image

注意:在最簡單的情況下,用戶只需要配置協議認證和行動策略兩項,其餘保留默認值即可。

獲取開放告警鏈接

配置完開放告警應用,就可以在通過點擊接口按鈕,獲取開放告警回掉鏈接。首先選取要接入告警消息的地區,目前支持的地區有河源。回調鏈接鏈接包含兩部分:域名部分和子路徑部分。其中子路徑部分包含變量{ACCESS_KEY_ID}。ACCESS_KEY_ID是阿里雲的賬戶標識,在ram控制檯中可以創建,創建的時候注意選取編程訪問。需要注意的是,在創建之後,還需要給該ACCESS_KEY_ID需要賦予系統權限策略AliyunLogPutOpenEventPolicy,才能通過該{ACCESS_KEY_ID}向開放告警應用發送告警消息。

image

配置三方服務

在獲取開放告警應用鏈接之後,就可以將該告警鏈接通過不同的方式配置到三方服務中。例如在prometheus中,可以通過在prometheus的配置文件prometheus.yml添加新的alertmanager的方式加入sls開放告警應用鏈接;在grafana中,通過添加新的通知渠道,並選擇類型為webhook。

協議

接入文檔

Prometheus

接入Prometheus告警

Grafana

接入Grafana告警

總結

SLS開放告警為開發運維人員提供了統一的告警消息接入方法,從而實現告警消息的統一查看和管理,極大的方便了用戶。SLS開放告警後續會推出更多的接入方式,敬請期待。

Leave a Reply

Your email address will not be published. Required fields are marked *