前言
上一節數據質量內容中,為大家介紹瞭如何配置離線數據的質量監控規則。針對離線數據,數據質量內置了43種規則模版,這些模版看似相似,但又各有側重,它們分別代表什麼含義呢?今天帶大家看看其中的奧祕。
內置離線規則模版說明
開始前,先介紹幾個基本概念:
- 樣本:當體採集的具體樣本值。如規則是“SQL任務錶行數,1天波動檢測”,其所指的樣本就是當天分區的錶行數。
-
基準值:歷史樣本的對比值。如規則是“SQL任務錶行數,1天波動檢測”,其所指的基準值就是前一天分區產生的錶行數。如規則是“SQL任務錶行數,7天平均值波動檢測”,其所指的基準值是前7天的錶行數的平均值。
目前DQC中僅支持兩種校驗,一種是波動值校驗,另一種是固定值比較,如下所示:
校驗方法 | 校驗邏輯 |
---|---|
波動值校驗 | 1、如果校驗值的絕對值小於或等於橙色閾值,返回正常。 2、如果校驗值的絕對值不滿足第一種情況,且小於或等於紅色閾值,返回橙色報警。 3、如果校驗值不滿足第二種情況,返回紅色報警。 |
固定值比較 | 1、根據校驗的表達式,計算 opt expect,返回布爾值,opt支持>,<,=,>=,<=,!=。 2、根據上式計算結果,如果為true,返回正常,否則返回紅色報警。 |
字段級模版規則
編號 | 模板名稱 | 說明 |
---|---|---|
1 | 字段平均值,相比1天、1周、1個月前波動率 | 取該字段的平均值,同1天,7天,一個月週期比較,計算波動率,然後與閾值比較,只要有一個報警就報警出來。 |
2 | 字段彙總值,相比1天、1周、1個月前波動率 | 取該字段的sum值,同1天,7天,一個月週期比較,計算波動率,然後與閾值比較,只要有一個報警就報警出來。 |
3 | 字段最小值,相比1天、1周、1個月前波動率 | 取該字段的最小值,同1天,7天,一個月週期比較,計算波動率,然後與閾值比較,只要有一個報警就報警出來。 |
4 | 字段最大值,相比1天、1周、1個月前波動率 | 取該字段的最大值,同1天,7天,一個月週期比較,計算波動率,然後與閾值比較,只要有一個報警就報警出來。 |
5 | 字段唯一值個數 | 去重之後的count數與一個期望數字進行比較,即固定值校驗。 |
6 | 字段唯一值個數,相比1天、1周、1個月前波動率 | 去重之後的count數,同1天,1周,1個月作比較,即固定值校驗 |
7 | 錶行數,相比1天、1周、1個月前波動率 | 同1天、一週、一月前採集的錶行數作比較,對比波動率。 |
8 | 字段空值個數 | 去該字段的空值數與固定值比較。 |
9 | 字段空值個數 / 總行數 | 空值個數與行總數,計算得到一個比率,與一個固定值做比較,注意:該固定值是一個小數。 |
10 | 字段重複值個數 / 總行數 | 重複值個數與總行數的比率與一個固定值做比較。 |
11 | 字段重複值個數 | 總行數減去去重之後的個數就是字段重複值個數,重複值個數與固定值比較。 |
12 | 字段唯一值個數 / 總行數 | 唯一值個數與總行數的比率與一個固定值做比較。 |
13 | 字段平均值,相比1天前波動率 | 取該字段的平均值,上一次週期比較,計算波動率,然後與閾值比較。 |
14 | 字段彙總值,相比1天前波動率 | 取該字段的sum值, 上一次週期比較,計算波動率,然後與閾值比較。 |
15 | 字段最小值,相比1天前波動率 | 取該字段的最小值,與1天前比較,計算波動率,然後與閾值比較。 |
16 | 字段最大值,相比1天前波動率 | 取該字段的最大值,前一天比較,計算波動率,然後與閾值比較。 |
17 | 字段彙總值,相比上一週期波動率 | 取該字段的sum值,同上一週期比較,計算波動率,然後與閾值比較,只要有一個報警就報警出來。 |
18 | 字段最小值,相比上一週期波動率 | 取該字段的最小值,同上一週期比較,計算波動率,然後與閾值比較,只要有一個報警就報警出來。 |
19 | 字段最大值,相比上一週期波動率 | 取該字段的最大值,同上一週期比較,計算波動率,然後與閾值比較,只要有一個報警就報警出來。 |
20 | 字段分組,各離散點count值 | 字段分組,各離散點count值 |
21 | 字段分組,各離散點count值,相比1天、1周、1個月前波動率 | 字段分組,各離散點count值,相比1天、1周、1個月前波動率 |
22 | 字段分組,離散點總數 | 字段分組,離散點總數 |
23 | 字段分組,離散點總數,相比1天前波動率 | 字段分組,離散點總數,相比1天前波動率 |
表級模版規則
編號 | 模板名稱 | 說明 |
---|---|---|
1 | 相比上一週期,表大小不變(字節) | 相比上一週期,表大小不變(字節) |
2 | 相比上一週期,表大小變化(字節) | 相比上一週期,表大小變化(字節) |
3 | 相比上一週期,錶行數變化 | 相比上一週期,錶行數變化 |
4 | 相比上一週期,錶行數不變 | 相比上一週期,錶行數不變 |
5 | 表大小,相比上一週期差值(字節) | 表大小,相比上一週期差值(字節) |
6 | 錶行數,相比上一週期差值 | 基準值為上一週期產生的分區的錶行數,對比當天採集的錶行數,對比差值。 |
7 | 錶行數 | 錶行數 |
8 | 表空間大小(字節) | 表空間大小(字節) |
9 | 錶行數,相比1天前差值 | 基準值為昨天產生的分區的錶行數,對比當天採集的錶行數,對比差值。 |
10 | 表空間大小,相比1天前差值(字節) | 表空間大小,相比1天前差值(字節) |
11 | 表空間大小,相比1天前波動率 | 該條模板是監控表大小的波動情況,樣本對此值是與昨天額度樣本做比較,如填寫橙色閾值為5%,紅色閾值為10%,則當波動率大於5%小於等於10%的時候會橙色報警,當大於10%的時候會紅色報警。 |
12 | 表空間大小,相比1周前波動率 | 該條模板是監控表大小的波動情況,樣本對此值是與一週前額度樣本做比較,如填寫橙色閾值為5%,紅色閾值為10%,則當波動率大於5%小於等於10%的時候會橙色報警,當大於10%的時候會紅色報警。 |
13 | 表空間大小,相比1個月前波動率 | 該條模板是監控表大小的波動情況,樣本對此值是與一月前額度樣本做比較,如填寫橙色閾值為5%,紅色閾值為10%,則當波動率大於5%小於等於10%的時候會橙色報警,當大於10%的時候會紅色報警。 |
14 | 錶行數,相比最近7天平均值波動率 | 基準值是最近7天的錶行數的平均值。 |
15 | 錶行數,相比最近30天平均值波動率 | 基準值是最近30天的錶行數的平均值。 |
16 | 錶行數,相比1天前波動率 | 基準值為昨天產生的分區的錶行數,對比當天採集的錶行數,對比波動率。 |
17 | 錶行數,相比1周前波動率 | 基準值為一週前產生的分區的錶行數,對比當天採集的錶行數,對比波動率。 |
18 | 錶行數,相比1個月前波動率 | 基準值為一月前產生的分區的錶行數,對比當天採集的錶行數,對比波動率。 |
19 | 錶行數,相比1天、1周、1個月前、本月1號波動率 | 同1天、一週、一月前、本月1號採集的錶行數作比較,對比波動率。 |
20 | 錶行數,相比上一週期波動率 | 基準值為上週產生的分區的錶行數,對比當天採集的錶行數,對比波動率。 |
DataWorks百問百答歷史記錄 請點擊這裡查看>>
更多DataWorks技術和產品信息,歡迎加入【DataWorks釘釘交流群】