大數據

數據中臺的智能進化—阿里巴巴十二年數據平臺發展歷程

本文轉自微信公眾號“輕金融”:https://mp.weixin.qq.com/s/DUBo6eJ7msbdA8Cbm3RngQ

分享人:阿里雲智能計算平臺事業部研究員 關濤 


從2016年誕生起,“中臺”概念就一路火熱至今,對互聯網與金融行業數字化轉型產生了極為深遠的影響。

 

作為“中臺”概念的提出者和先行者,阿里巴巴用12年的實踐探索了中臺能力建設和數據應用。在不斷升級和重構的過程中,阿里巴巴的中臺建設經歷了從分散的數據分析到數據中臺化能力整合,再到全局數據智能化的時代。

 

在當下如火如荼的金融行業中臺建設浪潮中,不少金融機構對於中臺建設仍存諸多迷思,中臺建設將走向何方?數據資產到底該如何管理?阿里巴巴的中臺建設之路應該能為金融機構帶來借鑑。

 

日前,在阿里雲舉辦的2021阿里雲金融數據智能峰會上,阿里雲智能計算平臺事業部研究員關濤對阿里巴巴如何構建數據中臺核心三要素中的平臺技術部分進行了全盤分享,其中包括數據平臺發展的四個典型階段,支持中臺業務的四大技術挑戰,以及數據平臺的四大技術趨勢等。

 

在阿里中臺的成功實踐中,方法論、組織、平臺能力是“數據中臺”的核心三要素,而其中平臺能力建設最為關鍵,難度也最大。阿里巴巴在打造強大的數據中臺底座方面已經進行了積極探索,並且還在不斷與時俱進夯實底座,構建面向未來的能力。

640.jpg

阿里巴巴數據平臺發展的四大階段

構建數據中臺,一個強大的數據平臺作為底座必不可少。

阿里巴巴數據平臺發展的四個階段,一定程度上其實也是阿里巴巴數據中臺發展的四個階段。這四個階段裡,你可以看到阿里巴巴對自身數據的商業價值的萃取,對原有分而治之的數據系統的聚合,對計算數據資產化和數據高效應用的新思路以及對數據平臺治理過程中面臨的組織變革等。

階段一:業務百花齊放,發現數據價值

2009年到2012年,阿里巴巴電商業務進入爆發期,湧現出非常多有名的業務團隊,比如淘寶、1688、AliExpresss、一淘等。每個業務都是基於數據驅動的全場景業務,業務方對數據有著強烈的訴求。

 

那個時候,阿里巴巴技術幾乎都是IOE架構,核心數據系統是Oracle。2年時間內,阿里巴巴建成了全亞洲最大的Oracle集群。但是在2010年,Oracle已經不能滿足計算的要求,有非常多數據延遲和不滿足性,再加上昂貴的成本,沒辦法繼續支撐業務發展。

 

阿里巴巴開始認真審視建設下一代數據平臺的重要性,同時啟動了兩個並行項目:一個是“雲梯1”,基於開源Hadoop技術體系,多個業務團隊構建多個Hadoop集群,集群規模達到4000臺服務器。

 

一個是“雲梯2”(ODPS,現MaxCompute),作為阿里巴巴自研產品啟動研發,集群規模1200臺左右。螞蟻小微貸款“牧羊犬”業務是第一個吃螃蟹的業務,上線“雲梯2”的過程被稱為“人肉雲計算”與“分步試計算”。王堅院士2018年曾在央視《朗讀者》節目朗讀《進入空氣稀薄地帶》,形容的就是自研數據平臺那時的現狀與信念。

 

兩個項目在阿里巴巴內部形成競合狀態,並行探索阿里巴巴數據平臺發展的軌跡。這個時期,所有業務方的數據幾乎都是垂直建設,以自己業務形態形成獨立小閉環的形式飛快向前奔跑。

階段二:業務垂直小閉環,數據孤島顯現 

2012年到2015年,阿里巴巴電商業務在飛速發展的同時,湧現出更多的新興業務:2013年,創立菜鳥,啟動“all-in 無線”戰略;2014年,投資高德,與銀泰合資,阿里旅行成立;2015年,推出釘釘/零售通、成立口碑、控股阿里健康等等。

 

這個時期,阿里巴巴業務蓬勃發展,形成了12個業務部門和9套不同的平臺系統,而且每套平臺系統架構都不一樣,用戶數字化流程需要橫跨多個BU的多套數據系統。

 

數據孤島現象開始日益嚴重,數據成本越來越高,統一的數據平臺建設已經迫在眉睫,這也是阿里巴巴數據中臺的起點。

 

與此同時,“雲梯1”和“雲梯2”也正在經歷大變革。

 

2013年3月28日,阿里巴巴集團技術保障部架構師雲錚的郵件直達集團高層:“按照數據增量與未來業務增長的情況,雲梯1和雲梯2兩套系統的存儲和計算能力將在今年6月21日到達瓶頸。”屆時,許多的業務將因為技術的限制而無法展開。

 

這意味著,數據平臺已經無法再同時並行“雲梯1”與“雲梯2”兩個項目,必須選擇其中1個。如果選擇“雲梯1”,Hadoop的5000節點限制如何突破?涉及到金融業務,開源體系如何保證大數據的安全與可用性?跨機房方案業界無參考如何解決?業務交互頻繁,跨機房如何保證數據穩定交互?

 

一系列的技術難題都逐漸將數據平臺推向自研道路。

 

最終,阿里巴巴集團多個技術部門合璧,決定選擇“雲梯2”挑戰5K巔峰。短短幾個月時間,“雲梯2”從1500臺跨入5000臺並突破單物理機房限制,通過10倍壓力測試,同時支持跨集群計算與高可用,為阿里巴巴未來多年的大數據發展奠定了堅實的技術基礎。

 

5K項目完成技術突破後,新的壓力接踵而來。業務快速發展導致數據規模也急劇膨脹,如何統一管理數據、統一保證數據安全、具備統一開放能力等問題成為數據平臺思考的核心。

 

為此,阿里巴巴內部啟動了一個比較有名的項目,將所有業務部門數據都同步到統一的大數據平臺,統一進行管理。這個項目經歷了兩年,涉及阿里巴巴所有事業部,這個過程中,還逐漸推進通用數據平臺能力產品化並具備金融級平臺的能力。

 

從當時來看,阿里巴巴建設數據平臺的過程是全面統一數據的過程,也是中國第一個超大規模數據中臺建設和遷移的過程。

階段三:數據中臺支撐業務可持續發展

2015年到2018年,阿里巴巴數據中臺方法論開始確立,拉開了數據中臺建設的大幕。2015年,阿里巴巴集團宣佈啟動“中臺戰略”後,開始構建符合DT時代的更靈活的“大中臺,小前臺”組織機制和業務機制。阿里巴巴每個運營小二都可以基於數據制定覆蓋用戶生命週期的數據化運營策略,生意參謀開始探索數據業務化,更多的業務開始走向實時化。

 

但是,數據和計算的高速增長、資源的高速消耗帶來了數據需要治理的問題。阿里巴巴的團隊們開始思考怎麼把數據中臺的方法論落實到平臺層,讓數據平臺支撐數據中臺的建設。

· 數據是誰的? 誰來用? 誰來管控?數據質量由誰負責?

· 平臺團隊和業務團隊是兩個團隊,成本關係是什麼?

· 中臺方法論,如何落地在數據平臺落地?如何治理?

· 數字增長很快,超過業務增長,怎麼辦?

· 一張核心表12PB,每個部門複製1份,一年幾千萬就沒了怎麼辦?

· 我知道要刪除一半的數據,但到底是哪一半?

這些問題的背後是數據的治理以及資產化,我們需要一套平臺系統把方法論承載進來,真正形成統一化。在數據平臺側,DataWorks 構建大規模協同數據開發與治理的一站式能力,MaxCompute 支持服務器集群達到十萬級,服務阿里集團全部BU、20多萬員工的日常運營,一起支撐各項業務的可持續發展。

階段四:雲上數據中臺與業務伴生

2018年之後,整個阿里巴巴數據平臺系統已經很成熟,平臺方和業務方達成一個非常好的配合狀態。業務方認可數據平臺的價值,業務部門與技術部門相伴相生,數據中臺服務業務達到正循環,成為數據中臺建設成功的一個標誌。

 

阿里巴巴從2018年內部所有系統開始上雲,到2021年實現了雲上數據中臺與業務伴生:雙11核心系統100%上雲,阿里巴巴全面雲原生化;每秒53.8萬筆,阿里雲抗住全球最大流量洪峰;數據中臺覆蓋阿里集團所有BU;運營小二及時發現問題、分析問題,實現實時運營決策;短視頻、直播等新業務繼續湧現……

 

可以看到,阿里巴巴的數據中臺建設是成功的,並且仍在高速向前發展。

MaxCompute 智能數倉讓雙11成為日常,湖倉一體逐步成為下一代大數據平臺架構,DataWorks建設的數據中臺全面服務業務,支持集團內數百個數據應用,通過全鏈路數據治理,以低成本增長支持集團業務高速增長。

數據平臺建設的四個核心挑戰

一個數據中臺建設的成功與否的核心指標,不是系統效率,不是平臺效率,而是“數據效率”。

 

阿里巴巴主要從規模與彈性、數據的成本、數據的正確性與可維護性、數據利用率4個方面來衡量“數據效率”。

在這個核心指標下,方法論、組織、平臺能力則是數據中臺成功的核心三要素。那麼,數據平臺要想建設好,背後究竟有哪些方法,建設過程中有哪些難點需要注意?背後要做的工作其實非常多,本次僅從面向業務的4個切面做介紹,暫未涉及存儲、計算引擎等層面的挑戰。

挑戰一:數據資產管理體系

對於數據資產來說,首先要解決的一個問題是:什麼叫企業的數據資產?阿里巴巴的每個BU都有一個自己事業部的數據資產全景圖,我們通過一張圖統管阿里巴巴99.9%計算數據資產,每個部門的存儲計算成本將全部量化,直接展現在管理者的面前。

 

第二個問題:如何看資產?對於企業而言,資產難道就是一個個成本的數字嗎?阿里巴巴通過數據資產的透視,讓管理者知道我自己的數據來源於哪,服務給誰,誰又是我最好的合作伙伴,同時又可以滿足數據流動審計的需求。

 

第三個問題:如何進行資產的規模化?新的業務合併/收購/創新,如何將這套資產體系快速地複製?在DataWorks等工具中提供數據中臺建模工具,能夠為數據中臺建設提供規範化圖紙,針對不同的業務域進行劃分,進行智能建模,讓新業務快速複用之前成熟的數據架構,達到資產規模化的能力。

挑戰二:數據質量體系

對於數據質量來說,首先要先解決的一個問題是:事前質量如何定義?金融行業經常提到一個概念叫對賬,阿里巴巴數據也要對賬,針對超過千萬級別數據表的對賬問題,我們提了“質量規則”的概念。700多萬質量規則,每天新增1萬多條,人工要怎麼配?阿里巴巴建設了37種規則模板,通過智能規則推薦匹配,採納率達到75%。

 

第二個問題:事中質量如何執行?700多萬條質量規則需要耗費大量計算資源怎麼辦?通過什麼方式來降低成本?我們通過智能化技術建設了數據質量調度引擎、ETL引擎,數據變更後實時觸發質量監控,採用優先級策略,進行空閒運行。

 

第三個問題:事後質量如何自動化?規則寫死了,但數據是活的,遇到週期性波動和變化怎麼辦?我們在數據質量建設的時候融入很多人工智能的技術,通過機器學習方式學習數據生成的樣子,能夠對動態閾值進行智能預測,通過算法匹配週期性波動。

挑戰三:數據安全體系

對於數據安全來說,要解決如何降低使用成本,提高易用性;如何覆蓋數據全生命週期;如何做權限管控;如何數據脫敏,如何識別敏感行為進行數據溯源等問題,阿里巴巴內部沉澱了超過20項不同的安全治理規則,這些規則最終能夠幫助平臺在滿足業務高速增長的情況下同時滿足個人合規的要求。

挑戰四:數據治理體系

當數據治理進入深水區,數據成本增速如何不超過業務增速;如何調動全員治理的積極性,培養成本意識,在阿里巴巴,數據治理是引擎、平臺和人的互相配合,引擎對算力和成本極致追求,持續打破快速增長的數據計算與成本增長的線性關係,平臺通過存儲健康分、計算健康分成為集團各團隊數據治理戰役的核心指標,推動人做數據治理和管理,利用平臺全鏈路工具,構建數據治理技術運營體系。通過這樣的成本報表的方式把平臺層的成本和價值展示清楚。

 

可以看出,在12年數據平臺建設期間,阿里巴巴從數據的資產、質量、安全、治理等多個緯度沉澱出了數據中臺產品化的能力。

作為中颱底座,數據平臺下一站走向何方

未來,作為中颱的底座,數據中臺將從數據智能到智能數據,“湖倉一體”滿足架構靈活升級、“智能數倉”解決超大規模下的數據管理難題、“智能查詢”極大降低數據分析門檻、AI的雲原生化/規模化/標準化與普惠化讓其成為大數據的終極出口,不斷加速大數據與AI一體化的融合。

趨勢一:一體兩面的湖倉一體

作為下一代數據平臺架構,湖倉一體滿足複雜現狀下架構的靈活升級。數據倉庫主打企業級數據,處理更精細、更經濟、更高效。企業可以建設自己的數據中臺,無論是引擎優化,還是數據管理,有一整套方法論以及支撐的工具。但是進入門檻很高,成本又貴,還有使用門檻。數據湖是脫胎於開源體系的技術,進入門檻和成本較低,比較靈活,企業容易實現自建數據湖,只是數據統一存儲之外,企業需要進一步做各種精細化管理,希望數據能治理,能管理,成本低,還可運維。

 

如何打通數據湖和數據倉庫割裂的體系,架構上融合數據湖的靈活性以及數據倉庫的企業級能力,阿里巴巴提出的湖倉一體架構,統一存儲和元數據,打通數據體系,利用智能數倉技術針對不同的數據和義務,做自動分類存儲和處理。

趨勢二:數據倉庫進入“自動駕駛”時代

超大規模數據帶來管理難題,傳統的“DBA模式”已經很難勝任。阿里巴巴有超過千萬級別的表,很多核心數據開發工程師,一個人負責上萬張表,沒有辦法做精細化的治理和建模,這樣的系統不能隨人的方式擴展,所以未來,越來越多的AI技術會融合進大數據系統,進入“自動駕駛”時代。

趨勢三:所查即所得,基於自然語言的智能數據查詢

阿里巴巴正在數據之上嘗試構建一個超大規模的知識圖譜,通過知識圖譜的方式做數據到語義層的翻譯,再通過NLP(自然語言處理)等技術跟用戶做結合,形成一個橋樑。比如用戶輸入北京市互聯網客戶有哪些,就可以自動生成得到一份數據。阿里巴巴正試圖把通過自然語言的智能查詢在海量數據上用起來,規模化起來,讓更多的非專業數據人員也可以獨立完成數據分析工作。

趨勢四:數據即智能,AI工程化的基礎能力 

數據需要智能的加速,AI是大數據的終極出口。我們知道,真正想把AI用起來是一個非常難的事情,從最初的數據興起、數據提煉、模型訓練、模型調優,再到模型部署和服務,整個鏈路非常長。如果我們有5萬人可以直接使用數據,可能真正能用AI的人可能不超過5000人,那如何把AI技術隨著數據賦能給業務方,這就是所謂的AI工程化。

最後總結一下,上述內容只是泛泛地提到了阿里數據中臺底座建設的四個典型階段,遇到的四大技術挑戰,以及數據平臺的四大技術趨勢等話題,這些內容還不是阿里巴巴數據中臺的全部。通過12年時間,阿里巴巴數據平臺建設已經有了非常多的技術積累,這些平臺能力也在不斷推動數據中臺向智能化進化,並且還會一直向前演進,服務阿里巴巴並輸出給全社會。

Leave a Reply

Your email address will not be published. Required fields are marked *