大數據

央視網的融媒體數據中臺實踐

1.png

作為中央電視臺新媒體平臺,央視網在不斷升級建設“一網(中央重點新聞網站)+一端(移動客戶端)+新媒體集成播控平臺(IPTV、手機電視、互聯網電視)+市場端口連接”的全新傳播格局,打造“無處不在”新入口的同時也深刻認識到,需要讓大數據成為驅動整個企業發展的核心動能。

  央視網的多終端系統技術平臺經過多年建設和發展,各終端都建成了一套適合於自己業務發展和管理規範的相對獨立的技術平臺,雖然實現了對各自業務的支撐,但也形成了很多數據孤島,不僅數據獨立,數據口徑也因對業務的不同理解而千差萬別,不同平臺和業務線都自成體系,央視網龐大的數據庫無法形成產業合力。

  事實上,不僅是央視網,許多互聯網大型企業都遭遇了同樣的問題。借鑑阿里巴巴的中臺戰略思想,將業務共同的工具和技術沉澱打造“大中臺、小前臺”的技術佈局,將業務發展的全流程進行數據化採集並整合,以數據鏈打通生產和傳播,整合生產數據和多終端用戶數據需求,從而進行更高效更精準的定向傳播。

  央視網大數據平臺於2018年底正式建成,是主流媒體中目前計算能力最強、數據量最大的大數據平臺。目前每天採集10~20億條用戶數據,系統具備每天處理100億條數據的能力,採集分析處理央視網PC網站、央視影音客戶端、IPTV、手機電視、互聯網電視和總檯全部微博、微信公眾號的用戶訪問數據。在構建數據中臺的過程中也沉澱出一套方法論和服務體系。

一、融媒體數據中臺管理體系

  通過建設數據中臺,驅動“一切業務數據化”,提升數據資產價值。數據中臺是實現媒體數據沉澱的重要組成部分,每家媒體都擁有自己的獨特數據模型、算法服務和數據管理規則,這些都與業務強關聯,是每家媒體獨有且能複用的核心資源。統一的模型維護不僅可以降低煙囪似的協作成本,減少重複建設,更可以在相關業務領域形成數據匯聚,解決數據互通的訴求,實現數據1+1>2。於是央視網構建了OneData、OneID和OneService的數據管理體系,以“承技術啟業務”的模式促進媒體融合發展(圖1)。

2.jpg

 **1.數據採集與清洗**

  數據採集是數據挖掘、分析的基礎,數據的大小、類型以及數據質量直接決定數據分析與挖掘的成果。在實際應用中通常是需要多個維度、多個方面的數據彙集交融。因此在數據採集時,就要考慮多源數據的立體採集,收集儘可能多的數據,同時保證數據質量。

  數據採集彙總完成後,需要投入大量的精力和時間對數據進行整理校準,統一口徑,規範關聯規則,也就是數據清洗。在數據清洗過程中,需要建設完整性、準確性、一致性三個基本準則,最後使數據標準、高質量、可應用。

** 2.OneData體系**

  傳統單個業務獨立運行並自行管理數據的過程中,我們經常會發現一份原始數據被多個業務存儲和計算,產生多個備份,定義出多種口徑,命名相同,定義口徑卻不一樣,混亂的標準和規則指向不明,界定模糊,給技術統一管理和業務應用帶來極大難度。大數據建設過程就是從無序到有序的邏輯重建過程,由數據接入、規範定義、計算加工、數據驗證、數據穩定性等多個部分合並構成了整體數據研發流程。OneData體系致力於建立跨終端數據公共層,保障數據口徑的規範性和唯一性。從終端數據源頭標準化數據,對每個元數據進行指標定義,使每一條數據都保持唯一性,以確保數據模型建立時,數據的標準性和存儲資源開銷也是穩定可靠的。

** 3.OneID體系**

  以媒體業務為例,數據主要分為用戶數據、媒資數據、業務流程數據、運營數據幾類,不同業務模式、產品線、終端、平臺都有自己關注的數據指標和參數,業務之間相對獨立又整體關聯,建立統一的數據管理規則才能從中挖掘更多數據價值。One ID體系致力於建立跨終端的用戶ID體系和內容ID體系,深入挖掘用戶真實感受和內容價值。

 ** 4.OneService體系**

  數據定義清晰、規則統一之後,數據最終是要通過可視化的方式給管理人員、業務人員提供服務。在數據中臺初始化的過程中,數據團隊從管理視角、服務視角、業務視角打造多張數據報表對數據實時監控從而實現業務應用。隨著業務應用越來越多,業務關係越來越複雜,需要構建標準化統一服務模型來減少系統對於研發力量的核銷和服務計算壓力的開銷。

  要建立OneData、OneID、OneService的數據管理體系,在技術上需要具備很強大的數據計算能力、平臺化的數據模型能力以及智能化的數據算法能力,在業務上同樣需要媒體行業經驗指導,建立合適的業務場景,通過場景應用使數據業務化,從而體現數據的價值,賦能產品線。

3.jpg

二、融媒體數據中臺實施

  **1.數據分層次**
  傳統數倉平臺通常會使用ETL(Extract-Transform-Load)將業務系統的數據經過抽取、清洗轉換之後加載到數據倉庫,目的是將業務線中的分散、零亂、標準不統一的數據整合到一起。隨著業務線增多,需求變化加快,通過一個個單一的ETL代碼匹配一連串業務場景,顯得捉襟見肘,無法符合數據中臺建模規範,必須重新定義。

  依照OneData體系原則,數據中臺數據倉庫建模規範,將表數據模型主要分為三個層次,分別是ODS(Operational Data Store)操作數據層、CDM(Common Dimensions Model)公共維度模型層、ADS(Application Data Store)應用數據層,其中公共維度模型層包括明細數據層(DWD)和彙總數據層(DWS)。三個層次自下而上,逐級遞進,各層次之間高內聚低耦合,公共層承上啟下,業務邏輯下沉,避免了應用層存在過多繁瑣的業務邏輯實現。

  ODS層:將來源於各終端各個系統最原始的數據,結構化後存放在數據倉庫。ODS層屬於表模型的最底層,直接對接各終端各業務系統產生的結構化數據、非結構化數據、歷史留存數據等。數據接入主要使用同步任務和代碼任務方式,對於結構化數據(數據庫)採用全量或增量方式同步到數據計算平臺,而非結構化數據(日誌、埋點採集)需要先進行結構化處理後存儲到數據計算平臺,對於歷史留存數據可根據數據結構特點採用相應方式接入數據計算平臺。在這一層實時和離線在源頭上是統一的,口徑也是基本一致的,在後續數據校驗時,可以很容易進行實時和離線間數據的對比。

  CDM層:CDM層是數據加工邏輯的核心層,也是數據建模業務數據化的體現點,主要存放明細事實數據、維表數據及公共指標彙總數據。在這層採取維度模型方法基礎,更多采用一些維度退化手法,減少事實表和維度表的關聯,容易維度到事實表強化明細事實表的易用性;在彙總數據層,加強指標的維度退化,採取更多寬表化的手段構建公共指標數據層,提升公共指標的複用性,減少重複加工。

  ADS層:主要存放各終端獨立業務產品統計指標數據,主要來源於CDM層加工生成,這一層計算只有業務本身才會關注的維度和指標,與其他終端業務線一般沒有交集,都是獨立存在,常用於新的業務需求或基於各個應用場景的數據組裝。比如:用戶留存漏斗模型、視頻播放趨勢分析都可以按照不同需求從CDM層加工而成(圖3)。

4.jpg

 ** 2.定義扣指標**

  數據分層規劃完成後,下面需要規範定義。這裡“規範定義”是指以維度建模作為理論基礎,構建總線矩陣,劃分和定義數據域、業務過程、維度、度量/原子指標、修飾類型、修飾詞、時間週期、衍生指標等。一般指標組成體系可以劃分為:原子指標、衍生指標、修飾類型、修飾詞、時間週期。在跨終端多業務指標體系建立過程中,應始終遵循OneData原則,避免因為個性化業務需求,創建重複或贅餘的指標。

 ** 3.維度建模型**

  維度建模是專門用於分析型數據庫、數據倉庫、數據集市建模的方法,以分析決策的需求出發構建模型,構建的數據模型為分析需求服務,重點解決用戶如何更快速完成分析需求,同時還具有較好的大規模複雜查詢的響應性能。

  數據建模首先需要做好業務需求調研。在業務梳理過程中,逐步抽象出數據域。數據域將業務過程和維度進行抽象地集合,在媒體行業中常用會抽象出會員域(註冊、登錄等)、日誌域(曝光、瀏覽、播放)、互動域(評論、回帖)等,每個數據域會包含不可拆分的行為事件,這需要對業務高度提煉且根據需求持續更新迭代。確定了數據域就需要明確數據域下業務過程與哪些維度有關聯,這裡就會涉及維度表的創建。

  接下來最重要的一項是創建事實表。事實表作為數據倉庫維度建模的核心,緊緊圍繞業務過程來設計,通過獲取描述業務過程的度量來表達業務過程,包含了引用的維度和與業務過程有關的指標,在事實表中應該儘量包含所有與業務過程相關的事實。

5.jpg

  事實表中一條記錄所表達的業務細節程度被稱為粒度。粒度的聲明是事實表設計中不可忽視的重要一步。粒度用於確定事實表中一行所表示業務的細節層次,決定了維度模型的擴展性,在選擇維度和事實之前必須先聲明粒度且每個維度和事實必須與所定義的粒度保持一致。

  遵循OneData體系數據建模實施過程是一個高度迭代和動態的過程,採用螺旋式實施方法。在總體架構設計完成之後,開始根據數據域進行迭代式模型設計和評審。在架構設計、規範定義和模型設計等模型實施過程中,都會引入評審機制,以確保模型實施過程的正確性。

 ** 4.平臺理資產**

  業務以數據化形態展現出來的同時,也無形中變成了最寶貴的資產。數據模型建立不僅需要設計上的合理,更需要平臺化的支撐。數據平臺資產管理的能力主要表現為:支持基礎信息管理的能力,即存放在平臺內的表信息、表名、字段、分區、存儲空間及數據預覽功能;任務血緣關係管理能力,數據平臺上管理的代碼任務、同步任務應自動或手動建立血緣關係,實現數據鏈路可查詢、可追蹤、可溯源能力;數據存放生命週期能力,即存放在平臺內的表具有生命週期,在建立表結構的同時指定留存時長,提高平臺存儲利用率;類目標籤體系管理能力,即能對存放在平臺的表分門別類,一方面便於業務管理,另一方面便於快速查詢;操作記錄管理能力,即能夠記錄對於表結構新增、變更、刪除等操作,操作痕跡有據可查,保證平臺具備數據審計能力,事故可追根溯源;用戶權限管理能力,即表級、行級權限授權,包含權限審批流程,保障數據安全性;髒數據管理能力,即對於平臺任務產生的髒數據,能統一查看和處理。數據資產管理平臺化是數據中臺基礎核心功能,也是數據管理體系建設中技術平臺化體現(圖5)。

6.jpg

  ** 5.規則保質量**

  在實際數據中臺實施建設過程中,數據計算任務沒有告警,但不代表數據就是正確的,比如源數據異常、代碼邏輯修改等原因都會造成結果數據錯誤。數據質量就是保障數據正確性的工具,主要運用以下幾條規則保證數據質量:數據準確性校驗規則針對核心的表及字段進行校驗規則,比如表的數據量是不是波動很大、字段是否存在異常值或突增突降現象;雙表校驗規則,在處理歷史數據遷移、重要業務邏輯變更時,需要保證數據的一致性,在保持原表的同時創建新邏輯表,待兩張表驗證結果後再執行變更上線;統計校驗規則,按固定週期根據表、字段或業務線核心指標,輸出數據校驗報表,輔助定位數據質量的問題根源會定期自動執行校驗規則,輸出校驗報告(圖6)。

7.jpg

三、數據中臺建設的經驗與啟示

  數據中臺建設是推進企業發展的重要驅動力。對於已經有較大規模業務的企業來說,歷史數據整合比新建數據體系困難更大。傳統媒體的技術人才劣勢是驅動媒體融合發展中無法迴避的弊端,與先進的技術能力提供商聯合可以減少彎路加速技術升級進程。

  推進中臺建設的過程中將會面臨著技術挑戰、業務挑戰、財務挑戰以及所有相關利益團隊的挑戰。既需要企業管理層支持,自上而下地統一思想,更需要在推進過程中腳踏實地、膽大心細。如果說平臺搭建可以依賴外部的技術力量,企業數據治理和數據規範則需要在內部團結一切可以團結的力量,讓越來越多的業務線共同參與,以同樣的理念做好同一件事,從而達成共贏。

  數據是辯證的、是客觀的,是未經過加工的信息表達載體。在面對這既美妙又枯燥的表達方式時,我們可能碰到的是由每一個功能上線呈現出精彩圖表應用帶來的喜悅,也可能經歷的是由於規則錯誤導致從頭再來的沮喪。“不積跬步,無以至千里”,在漫長的數據中臺建設過程中,必將經歷各種磨難。痛並快樂著!  

更多關於數智化轉型、數據中臺內容可掃碼加入數智洞察社一起交流哦
5

Leave a Reply

Your email address will not be published. Required fields are marked *