開發與維運

DataWorks百問百答63:DataWorks如何進行離線數據質量監控??

前言

 日常工作中,每時每刻都在產生大量重要的數據,數據質量問題也隨之而來。如何用最少的人力、最快的速度,自動完成數據質量校驗,對於企業節省成本、上層決策應用等起到關鍵作用。DataWorks的數據質量模塊,為您提供全鏈路的數據質量方案,讓數據監控更加簡單、高效。
   數據質量最基本、也最關鍵的功能,就是配置監控規則。目前,數據質量支持MaxCompute和EMR兩種離線數據源,以及DataHub實時數據源。未來,會陸續支持更多種類的引擎/數據源。本期首先為您介紹離線數據源的監控規則配置方法。

如何配置離線數據的監控規則

1. 選擇“引擎/數據源”-->"引擎/數據源實例"-->需要監控的表,點擊配置監控規則。

2. 創建分區表達式,目的是定位最新數據,避免全表掃描。系統自帶分區表達式的含義如下:

$[yyyymmdd] 調度日期
$[yyyymmdd-1] 業務日期
$[yyyymmdd-N] 前N天
$[yyyymm01-1] 每月1日
$[yyyymm01-Nm] N月前1日
$[yyyymmld-1] 每月最後一天
$[yyyymmld-Nm] N月前最後一天
$[yyyymmddhh24miss] 調度時間
$[hh24miss-1/24] 一個小時前
$[hh24miss-30/24/60] 半個小時前

若為非分區表,則表達式如下:
NOTAPARTITIONTABLE

3. 選擇某一分區表達式,點擊“創建規則”藍色按鈕,出現創建監控規則的右側拉窗。監控規則分為模板規則和自定義規則兩種。

(1)模板規則:數據質量支持43種表級和字段級的內置模板以及9種動態閾值模板,同時還支持用戶自建的規則模板庫。
注:動態閾值和規則模板庫,在後續的高級功能中會為大家詳細介紹,敬請期待。本期模板規則是在動態閾值選擇“否”的前提下進行演示。
dataworks63-8.png

填寫說明如下:

規則名稱 填寫規則名稱
強弱 強規則阻塞下游,弱規則僅報警
動態閾值 是否使用動態閾值,進行智能判斷
規則來源 選擇使用43種內置模版或自建的規則模板庫
規則字段 選擇表級或字段級規則。
規則模版 選擇具體的規則模板。規則模板會根據規則字段的不同而變化
比較方式 波動率型模板:絕對值、上升、下降
固定值型模板:大於、大於等於、等於、不等於、小於等於、小於
校驗閾值 波動率型模板:橙色閾值、紅色閾值
固定值模板:期望值

注:強弱規則的橙色報警均不會阻塞下游,必須小於紅色閥值,精確到百分比小數點後兩位。強規則的紅色報警會觸發阻塞,必須大於橙色閥值,精確到百分比小數點後兩位。

(2)自定義規則:支持用戶輸入自定義SQL創建監控規則
dataworks63-7.png

填寫說明如下:

規則名稱 填寫規則名稱
強弱 強規則阻塞下游,弱規則僅報警
規則字段 選擇自定義SQL
採樣方式 選擇自定義SQL
Set Flag 輸入SQL的前置set語句
自定義SQL 只接收查詢語句;
可使用分區表達式變量;
可關聯其他表;
可使用UDF
校驗類型 分為數值型、波動率型、動態閾值型。選擇不同檢驗類型,比較方式和閾值形式會進行相應變化
描述 輸入對規則的描述,會出現在報警信息中

4. 規則內容設置完畢後,點擊批量保存,規則即創建成功。

添加規則訂閱管理

在監控配置首頁,選擇某一分區表達式,點擊“訂閱管理”按鈕,可為該分區表達式下的監控規則添加配置訂閱信息。訂閱方式主要包括郵件、短信、釘釘群(支持@all)三種方式,接受對象範圍為該項目下的所有成員。
dataworks63-6.png

規則試跑

規則試跑的目的有3種:測試監控規則配置的是否正確;測試訂閱發送渠道是否正確;手動運行監控規則。在監控配置首頁,選擇某一分區表達式,點擊“試跑”按鈕
dataworks63-5.png

監控規則如何關聯調度

監控規則和訂閱都已經配置完畢、並試跑成功,那如果啟動正式的規則校驗呢?數據質量採用的是將規則與調度節點關聯起來的方式。當該節點開始任務調度時,所關聯的所有規則會同時進行校驗。
關聯調度節點的方式有兩種:
1.在數據質量直接進行關聯
在某一分區表達式下選擇“關聯調度”按鈕,進行調度節點的綁定
dataworks63-4.png
2.在運維中心進行關聯
在運維中心--週期任務中,找到希望關聯的節點,右鍵該節點,選擇“配置質量監控”
dataworks63-3.png

在出現的彈窗中,選擇引擎、實例、表名、分區表達式,進行監控規則配置。注意分區表達式不要填錯了哦!
dataworks63-2.png

查詢任務執行結果

節點任務執行後,規則校驗也隨之被執行。規則校驗的結果可以在數據質量的“任務查詢”頁面中進行查看。每條規則的詳細情況可以點擊“詳情”進行查看。
dataworks63-1.png

好啦,本期數據質量“百問百答”就介紹到這裡,下一期會為大家介紹實時數據的監控規則配置方法。

DataWorks百問百答歷史記錄 請點擊這裡查看>>

更多DataWorks技術和產品信息,歡迎加入【DataWorks釘釘交流群】

Leave a Reply

Your email address will not be published. Required fields are marked *