開發與維運

DataWorks百問百答59:DataWorks離線數據質量規則模版分別代表什麼含義?

前言

   上一節數據質量內容中,為大家介紹瞭如何配置離線數據的質量監控規則。針對離線數據,數據質量內置了43種規則模版,這些模版看似相似,但又各有側重,它們分別代表什麼含義呢?今天帶大家看看其中的奧祕。

內置離線規則模版說明

   開始前,先介紹幾個基本概念:

  • 樣本:當體採集的具體樣本值。如規則是“SQL任務錶行數,1天波動檢測”,其所指的樣本就是當天分區的錶行數。
  • 基準值:歷史樣本的對比值。如規則是“SQL任務錶行數,1天波動檢測”,其所指的基準值就是前一天分區產生的錶行數。如規則是“SQL任務錶行數,7天平均值波動檢測”,其所指的基準值是前7天的錶行數的平均值。
       
    目前DQC中僅支持兩種校驗,一種是波動值校驗,另一種是固定值比較,如下所示:
校驗方法 校驗邏輯
波動值校驗 1、如果校驗值的絕對值小於或等於橙色閾值,返回正常。
2、如果校驗值的絕對值不滿足第一種情況,且小於或等於紅色閾值,返回橙色報警。
3、如果校驗值不滿足第二種情況,返回紅色報警。
固定值比較 1、根據校驗的表達式,計算 opt expect,返回布爾值,opt支持>,<,=,>=,<=,!=。
2、根據上式計算結果,如果為true,返回正常,否則返回紅色報警。

字段級模版規則

編號 模板名稱 說明
1 字段平均值,相比1天、1周、1個月前波動率 取該字段的平均值,同1天,7天,一個月週期比較,計算波動率,然後與閾值比較,只要有一個報警就報警出來。
2 字段彙總值,相比1天、1周、1個月前波動率 取該字段的sum值,同1天,7天,一個月週期比較,計算波動率,然後與閾值比較,只要有一個報警就報警出來。
3 字段最小值,相比1天、1周、1個月前波動率 取該字段的最小值,同1天,7天,一個月週期比較,計算波動率,然後與閾值比較,只要有一個報警就報警出來。
4 字段最大值,相比1天、1周、1個月前波動率 取該字段的最大值,同1天,7天,一個月週期比較,計算波動率,然後與閾值比較,只要有一個報警就報警出來。
5 字段唯一值個數 去重之後的count數與一個期望數字進行比較,即固定值校驗。
6 字段唯一值個數,相比1天、1周、1個月前波動率 去重之後的count數,同1天,1周,1個月作比較,即固定值校驗
7 錶行數,相比1天、1周、1個月前波動率 同1天、一週、一月前採集的錶行數作比較,對比波動率。
8 字段空值個數 去該字段的空值數與固定值比較。
9 字段空值個數 / 總行數 空值個數與行總數,計算得到一個比率,與一個固定值做比較,注意:該固定值是一個小數。
10 字段重複值個數 / 總行數 重複值個數與總行數的比率與一個固定值做比較。
11 字段重複值個數 總行數減去去重之後的個數就是字段重複值個數,重複值個數與固定值比較。
12 字段唯一值個數 / 總行數 唯一值個數與總行數的比率與一個固定值做比較。
13 字段平均值,相比1天前波動率 取該字段的平均值,上一次週期比較,計算波動率,然後與閾值比較。
14 字段彙總值,相比1天前波動率 取該字段的sum值, 上一次週期比較,計算波動率,然後與閾值比較。
15 字段最小值,相比1天前波動率 取該字段的最小值,與1天前比較,計算波動率,然後與閾值比較。
16 字段最大值,相比1天前波動率 取該字段的最大值,前一天比較,計算波動率,然後與閾值比較。
17 字段彙總值,相比上一週期波動率 取該字段的sum值,同上一週期比較,計算波動率,然後與閾值比較,只要有一個報警就報警出來。
18 字段最小值,相比上一週期波動率 取該字段的最小值,同上一週期比較,計算波動率,然後與閾值比較,只要有一個報警就報警出來。
19 字段最大值,相比上一週期波動率 取該字段的最大值,同上一週期比較,計算波動率,然後與閾值比較,只要有一個報警就報警出來。
20 字段分組,各離散點count值 字段分組,各離散點count值
21 字段分組,各離散點count值,相比1天、1周、1個月前波動率 字段分組,各離散點count值,相比1天、1周、1個月前波動率
22 字段分組,離散點總數 字段分組,離散點總數
23 字段分組,離散點總數,相比1天前波動率 字段分組,離散點總數,相比1天前波動率

表級模版規則

編號 模板名稱 說明
1 相比上一週期,表大小不變(字節) 相比上一週期,表大小不變(字節)
2 相比上一週期,表大小變化(字節) 相比上一週期,表大小變化(字節)
3 相比上一週期,錶行數變化 相比上一週期,錶行數變化
4 相比上一週期,錶行數不變 相比上一週期,錶行數不變
5 表大小,相比上一週期差值(字節) 表大小,相比上一週期差值(字節)
6 錶行數,相比上一週期差值 基準值為上一週期產生的分區的錶行數,對比當天採集的錶行數,對比差值。
7 錶行數 錶行數
8 表空間大小(字節) 表空間大小(字節)
9 錶行數,相比1天前差值 基準值為昨天產生的分區的錶行數,對比當天採集的錶行數,對比差值。
10 表空間大小,相比1天前差值(字節) 表空間大小,相比1天前差值(字節)
11 表空間大小,相比1天前波動率 該條模板是監控表大小的波動情況,樣本對此值是與昨天額度樣本做比較,如填寫橙色閾值為5%,紅色閾值為10%,則當波動率大於5%小於等於10%的時候會橙色報警,當大於10%的時候會紅色報警。
12 表空間大小,相比1周前波動率 該條模板是監控表大小的波動情況,樣本對此值是與一週前額度樣本做比較,如填寫橙色閾值為5%,紅色閾值為10%,則當波動率大於5%小於等於10%的時候會橙色報警,當大於10%的時候會紅色報警。
13 表空間大小,相比1個月前波動率 該條模板是監控表大小的波動情況,樣本對此值是與一月前額度樣本做比較,如填寫橙色閾值為5%,紅色閾值為10%,則當波動率大於5%小於等於10%的時候會橙色報警,當大於10%的時候會紅色報警。
14 錶行數,相比最近7天平均值波動率 基準值是最近7天的錶行數的平均值。
15 錶行數,相比最近30天平均值波動率 基準值是最近30天的錶行數的平均值。
16 錶行數,相比1天前波動率 基準值為昨天產生的分區的錶行數,對比當天採集的錶行數,對比波動率。
17 錶行數,相比1周前波動率 基準值為一週前產生的分區的錶行數,對比當天採集的錶行數,對比波動率。
18 錶行數,相比1個月前波動率 基準值為一月前產生的分區的錶行數,對比當天採集的錶行數,對比波動率。
19 錶行數,相比1天、1周、1個月前、本月1號波動率 同1天、一週、一月前、本月1號採集的錶行數作比較,對比波動率。
20 錶行數,相比上一週期波動率 基準值為上週產生的分區的錶行數,對比當天採集的錶行數,對比波動率。

DataWorks百問百答歷史記錄 請點擊這裡查看>>

更多DataWorks技術和產品信息,歡迎加入【DataWorks釘釘交流群】

Leave a Reply

Your email address will not be published. Required fields are marked *