前言
日常工作中,每時每刻都在產生大量重要的數據,數據質量問題也隨之而來。如何用最少的人力、最快的速度,自動完成數據質量校驗,對於企業節省成本、上層決策應用等起到關鍵作用。DataWorks的數據質量模塊,為您提供全鏈路的數據質量方案,讓數據監控更加簡單、高效。
數據質量最基本、也最關鍵的功能,就是配置監控規則。目前,數據質量支持MaxCompute和EMR兩種離線數據源,以及DataHub實時數據源。未來,會陸續支持更多種類的引擎/數據源。本期首先為您介紹離線數據源的監控規則配置方法。
如何配置離線數據的監控規則
1. 選擇“引擎/數據源”-->"引擎/數據源實例"-->需要監控的表,點擊配置監控規則。
2. 創建分區表達式,目的是定位最新數據,避免全表掃描。系統自帶分區表達式的含義如下:
$[yyyymmdd] | 調度日期 |
---|---|
$[yyyymmdd-1] | 業務日期 |
$[yyyymmdd-N] | 前N天 |
$[yyyymm01-1] | 每月1日 |
$[yyyymm01-Nm] | N月前1日 |
$[yyyymmld-1] | 每月最後一天 |
$[yyyymmld-Nm] | N月前最後一天 |
$[yyyymmddhh24miss] | 調度時間 |
$[hh24miss-1/24] | 一個小時前 |
$[hh24miss-30/24/60] | 半個小時前 |
若為非分區表,則表達式如下:
NOTAPARTITIONTABLE
3. 選擇某一分區表達式,點擊“創建規則”藍色按鈕,出現創建監控規則的右側拉窗。監控規則分為模板規則和自定義規則兩種。
(1)模板規則:數據質量支持43種表級和字段級的內置模板以及9種動態閾值模板,同時還支持用戶自建的規則模板庫。
注:動態閾值和規則模板庫,在後續的高級功能中會為大家詳細介紹,敬請期待。本期模板規則是在動態閾值選擇“否”的前提下進行演示。
填寫說明如下:
規則名稱 | 填寫規則名稱 |
---|---|
強弱 | 強規則阻塞下游,弱規則僅報警 |
動態閾值 | 是否使用動態閾值,進行智能判斷 |
規則來源 | 選擇使用43種內置模版或自建的規則模板庫 |
規則字段 | 選擇表級或字段級規則。 |
規則模版 | 選擇具體的規則模板。規則模板會根據規則字段的不同而變化 |
比較方式 | 波動率型模板:絕對值、上升、下降 固定值型模板:大於、大於等於、等於、不等於、小於等於、小於 |
校驗閾值 | 波動率型模板:橙色閾值、紅色閾值 固定值模板:期望值 |
注:強弱規則的橙色報警均不會阻塞下游,必須小於紅色閥值,精確到百分比小數點後兩位。強規則的紅色報警會觸發阻塞,必須大於橙色閥值,精確到百分比小數點後兩位。
(2)自定義規則:支持用戶輸入自定義SQL創建監控規則
填寫說明如下:
規則名稱 | 填寫規則名稱 |
---|---|
強弱 | 強規則阻塞下游,弱規則僅報警 |
規則字段 | 選擇自定義SQL |
採樣方式 | 選擇自定義SQL |
Set Flag | 輸入SQL的前置set語句 |
自定義SQL | 只接收查詢語句; 可使用分區表達式變量; 可關聯其他表; 可使用UDF |
校驗類型 | 分為數值型、波動率型、動態閾值型。選擇不同檢驗類型,比較方式和閾值形式會進行相應變化 |
描述 | 輸入對規則的描述,會出現在報警信息中 |
4. 規則內容設置完畢後,點擊批量保存,規則即創建成功。
添加規則訂閱管理
在監控配置首頁,選擇某一分區表達式,點擊“訂閱管理”按鈕,可為該分區表達式下的監控規則添加配置訂閱信息。訂閱方式主要包括郵件、短信、釘釘群(支持@all)三種方式,接受對象範圍為該項目下的所有成員。
規則試跑
規則試跑的目的有3種:測試監控規則配置的是否正確;測試訂閱發送渠道是否正確;手動運行監控規則。在監控配置首頁,選擇某一分區表達式,點擊“試跑”按鈕
監控規則如何關聯調度
監控規則和訂閱都已經配置完畢、並試跑成功,那如果啟動正式的規則校驗呢?數據質量採用的是將規則與調度節點關聯起來的方式。當該節點開始任務調度時,所關聯的所有規則會同時進行校驗。
關聯調度節點的方式有兩種:
1.在數據質量直接進行關聯
在某一分區表達式下選擇“關聯調度”按鈕,進行調度節點的綁定
2.在運維中心進行關聯
在運維中心--週期任務中,找到希望關聯的節點,右鍵該節點,選擇“配置質量監控”
在出現的彈窗中,選擇引擎、實例、表名、分區表達式,進行監控規則配置。注意分區表達式不要填錯了哦!
查詢任務執行結果
節點任務執行後,規則校驗也隨之被執行。規則校驗的結果可以在數據質量的“任務查詢”頁面中進行查看。每條規則的詳細情況可以點擊“詳情”進行查看。
好啦,本期數據質量“百問百答”就介紹到這裡,下一期會為大家介紹實時數據的監控規則配置方法。
DataWorks百問百答歷史記錄 請點擊這裡查看>>
更多DataWorks技術和產品信息,歡迎加入【DataWorks釘釘交流群】