數據中臺基本概念
數據中臺是指在業務前臺和數據後臺之間構建統一的數據平臺,實現企業數據全維度的統一存儲、統一管理、統一安全、統一模型和統一數據服務。從技術角度來說,數據中臺是一套成熟的數據存儲、數據管理和數據服務的軟件包和管理機制,可以幫助企業持續不斷地將數據變成資產並服務於前方業務。從管理角度來說,數據中臺是企業的成本中心和創新中心,一方面構建數據中臺會給企業帶來更多的成本投入, 另一方面數據中臺部門也會成為企業的創新源泉。
數據中臺通過數據的統一存儲和管理,形成了企業的數據資產層(數據將作為重要的生產資料參與企業運營),進而為客戶提供高效服務。 這些服務與企業的業務之間存在比較強的關聯性,很多服務都具有獨特價值並可複用,是企業業務和數據的沉澱,不僅僅可以降低重複建設、減少煙囪式協作的成本,也是差異化競爭的優勢所在。
數據中臺建設的基礎還是數據倉庫和數據中心,數據倉庫模型設計與原有的IOE時代變化不大,主流的依然是Kimball維度建模和Inmon關係模型兩種, 在大型互聯網公司數據中臺構建過程中主要採用的是Kimball維度建模方法,在傳統大型企業、政府事業單位多采用Inmon關係模型方法。
1) 對於大多數互聯網公司來說,如何快速的響應需求變化和快速迭代是重點,很難從全局角度來精心設計Inmon關係模型(實體-關係模型,ER模型),很多場景中趨向於使用Kimball維度建模(維度-事實模型,DFM)方法快速完成任務。
2) 對於很多傳統大型企業以及很多大型政府機關,從全局角度使用Inmon關係模型進行數據中臺建模,根據業務需要構建一系列數據集市進行數據分析和數據挖掘,並對前方業務提供數據服務支持。
數據倉庫建設通常以日為粒度,通過ETL工具和數據複製工具將傳統各種OLTP系統數據變化情況增量同步到數據倉庫中。
3) 完善、統一的元數據管理是實現數據中臺的前提之一,通過元數據管理企業可以清晰地知道自己都有哪些業務術語、規則、流程、定義、運算法則和模型等,可以可視化的、清晰的進行數據的世系分析和影響分析等。為了更好地管理整個信息供應鏈中各個組件的元數據和掌握各組件間數據的流動,企業需要有步驟地提升其元數據管理的成熟度,逐漸將元數據管理從局部走向全局,從分散走向集中,從孤立走向共享。
4) 數據治理是實現數據中臺的關鍵步驟,是指將企業信息作為重要資產進行管理和控制的規程,主要用來解決信息冗餘、衝突、缺失和錯誤等問題。完善的數據治理可以幫助企業避免各種操作違規、合規性風險和各種數據管理不善引起的決策效果不佳。
5) 為了在整個企業範圍內跨業務豎井協調和重用主數據,需要進行統一的主數據管理,實現整個信息供應鏈內主題域和跨主題域相關主數據的一致性。主數據管理是構建企業信息單一視圖的重要一環。
數據倉庫建模方法論
業內主流的數據倉庫方法論主要有兩種:Kimball和Inmon。Kimball模式是由數據倉庫和商務智能領域的權威專家Ralph Kimball博士提出的,其在《數據倉庫工具箱(The Data Warehouse Toolkit)》一書中提出了Kimball維度建模模式。Kimball維度建模以來自前方分析決策需求為驅動構建數據模型,重點關注如何幫助用戶快速完成分析需求,同時具有較好的大規模複雜查詢的響應性能。Inmon關係模型模式是由數據倉庫之父比爾·恩門(Bill Inmon)提出來的,主張構建以數據倉庫為來源的數據集市。也就是說,Inmon關係模型模式中所有數據集市的數據都來自於面向主題的數據倉庫數據存儲。
Kimball模式是從底向上的,是從OLTP數據源到數據集市再到數據倉庫的一種快速開發方法。Inmon模式是從頂向下的,會首先構建可以滿足絕大多數需求的數據倉庫,嘗試構建滿足不同業務預期的數據庫表,並從各個數據源將數據進行ETL裝入到數據倉庫中。在面向某個業務場景需要構建數據集市時,則通過ETL將所需數據從數據倉庫中裝載進來。
數據中臺支持新一代智慧城市建設:城市大腦
以新一代智慧城市為例, 我們來看看數據中臺如何支持城市大腦各個業務落地的。如下圖所示,城市大腦構建在數據中臺之上,可以全方位服務整個城市交通、安全、城管、經濟、園區等各種需求。