一、雲數據倉庫概述
數據倉庫的定義是面向主題、集成性、穩定性和時變性,用於支持管理決策。 數據倉庫的意義在於對企業的所有數據進行歸集,為企業各個部門提供統一的, 規範的數據出口。
數據倉庫(模型)本質是人收集和存儲數據,認識數據,組織和管理數據,使用數據決策的最佳實踐形成的方法論。 模型本身與在哪、用什麼技術無關。 但邏輯模型和物理模型在最終方案中又是緊密結合的。用戶需要的是數倉的業務能力和技術能力。
數據倉庫的核心能力和價值包括:採集同步、加工、存儲、建模、治理、查詢。但是為了實現數據倉庫的能力和價值必須要具備的基礎包括: IDC機房、部署、開通、高可用、安全、日常運 維、擴容。這些構成了數倉總擁有成本。從各個角度看,總成本=核心能力成本+基礎成本 =產品成本+服務成本 =當前成本+長期成本+演進成本。
MaxCompute是SaaS模式企業級雲數據倉庫。SaaS模式雲數據倉庫具有如下特點:• 開箱即用 • 大規模高性能 • 免運維、專家優化 • 靈活擴展 • 數據服務 • 豐富完善的數倉能力 • 高可用,容災備份 • 極致安全 • 低成本 • 能力快速演進。能夠為企業免去擁有數據倉庫的基礎建設成本、維護成本、長期演進成本等非核心能力之外的投入。
SaaS模式雲數據倉庫可能的應用場景舉例如下:
實時數據入倉和分析決策
業務運營場景-交互式業務指標計算、查詢
各行業搭建數據倉庫-流批一體、湖倉一體 雲上彈性擴展大數據計算和存儲。
SaaS模式雲數據倉庫的產品優勢包括:
雲原生極致彈性:雲原生設計,無服務器架構,支持秒級彈性伸縮, 快速實現大規模彈性負載需求
簡單易用多功能計算:預置多種計算模型和數據通道能力,開通即用
企業級平臺服務:支持開放生態,提供企業級安全管理能力。與阿里 雲眾多大數據服務無縫集成
安全:多租戶環境下安全控制能力強
大規模集群性能強、全鏈路穩定性高,阿里巴巴雙11場景驗證。
SaaS模式雲數據倉庫推薦場景和產品組合例如:
實時分析場景-MaxCompute+MC-Hologres+Flink+DataWorks+Quick BI
機器學習場景-MaxCompute+PAI+DataWorks。等。
今天重點講解實時分析場景。
雲數據倉庫包含的面向用戶的功能和數據流程,如下圖所示。開通MaxCompute雲數倉即可擁有如下全部功能和能力。
二、實時分析場景與價值
再提一遍大數據的5V能力
1 容量(Volume) 是指大規模的數據量,並且數據量呈持續增長趨勢。目前一般指超過10T規模的數據量,但未來隨著技術的進步,符合大數據標準的數據集大小也會變化。
2 速率(Velocity) 即數據生成、流動速率快。數據流動速率指指對數據採集、存儲以及分析具有價值信息的速度。因此也意味著數據的採集和分析等過程必須迅速及時。
3 多樣性(Variety) 指是大數據包括多種不同格式和不同類型的數據。數據來源包括人與系統交互時與機器自動生成,來源的多樣性導致數據類型的多樣性。根據數據是否具有一定的模式、 結構和關係,數據可分為三種基本類型:結構化數據、非結構化數據、半結構化數據。
4 真實性(Veracity) 指數據的質量和保真性。大數據環境下的數據最好具有較高的信噪比。
5 價值(Value) 即低價值密度。隨著數據量的增長,數據中有意義的信息卻沒有成相應比例增長。而價值同時與數據的真實性和數據處理時間相關,見圖。
其中最關鍵的一點是:越接近數據源,越早進行分析和決策,越能發揮數據價值。
實時分析的場景可以用以下兩個類比演化出來:
類比1:大酒店同時具備其他綜合業務,發展出餐 飲(實時)業務,用以更好的發揮協同作用。
演化1:以數倉分析為主場景,根據業務實時性需 求進行實時分析,構建實時通道和實時交互式分析, 形成Lambda架構。
類比2:飯店從餐飲(實時)業務發展而來, 需要更好的外圍支持作用,並向綜合性發展。
演化2:以實時分析為主場景,形成流式架 構,又需要能從數倉快速提取數據,和數據 源回放,形成kappa架構,後續還要考慮實 時數據和模型如何入倉。
詳細分析這兩種演化場景如下:
以數倉分析為主場景,根據業務實時性需求進 行實時分析,構建實時通道和實時交互式分析, 形成Lambda架構 例如IOT設備監控分析,下發策略,設備接收 後上報新數據立即進行分析,對比之前的結果, 反複分析調優。
以實時分析為主場景,形成流式架構,又需要能從 數倉快速提取數據,和數據源回放,形成kappa 架構,後續還要考慮實時數據和模型如何入倉 例如欺詐監控,必須第一時間獲取分析結論,並關 聯標籤精準識別,最後實時數據落入數倉與其他數 據融合形成知識。
進一步的,實時分析的主要能力要求如下:
1 應用生態:
• 開發者生態 • 豐富的API、SDK • BI工具無縫對接 • 流式處理工具和分佈 式消息隊列無縫對接。
2 極速查詢響應:
• 毫秒級響應速度,輕 鬆滿足客戶海量數據 複雜多維分析需求 • 千萬QPS點查 • 上千QPS簡單查詢。
3 實時存儲:
• 億級寫入TPS • 寫入即可查詢。
4數倉查詢加速:
• 直接分析 • 無數據搬遷 • 無冗餘存儲 • 統一權限。
5 聯合計算:
• 統一建模方法 • 統一元數據 • 統一的管控治理體系 • 分層劃域架構下的演 進和整合。
三、MaxCompute雲數倉+實時分析
常見的Lambda架構有三大問題。
首先,一致性難題: • 兩套代碼,兩套邏輯 • 流和批語義完全不同 • 離線層和實時層數據存儲和變換方式完全不同。
第二,環環相扣、多套系統、運維複雜、成本高昂: • 多個不同的系統 • 大量的同步任務 • 資源消耗巨大 • 不同系統標準規範不統一。
第三,開發週期長、業務不敏捷: • 錯誤難以診斷和定位 • 修訂、補數週期長 • 無法自助實時分析 • 無法響應變化 • 分析到服務的轉化週期長。
以搜索推薦精細化運營的場景案例進行分析,開源方案的能力分散。如下圖所示,KVStore,MPP,實時數倉,數倉具有多種能力,最好能有一種技術方案將多種能力統一於一個引擎。將存儲、實時數倉、交互式分析、點查、OLAP分析等能力集於一身。MaxCompute Hologres即是這個產品和解決方案。
MaxCompute Hologres將實時分析的架構變得簡單和高效。以實時分析為中心設計, Hologres能夠實現實時寫入和實時分析、查詢。MaxCompute Hologres提出雲原生HSAP架構中,一份數據同時用於實時分析、在線服務和實時離線數據統一存儲,與SaaS模式雲數據倉庫MaxCompute完美結合。
另一種場景,MaxCompute Hologres可以作為雲數據倉庫MaxCompute分析加速能力模塊和ADS層建模能力模塊。無數據搬遷、數據分析效率高。ADS層建模+服務統一、OLAP增強,如下圖所示。
再看kappa架構,Kappa架構是基於流式架構的升級,需要回放和關聯數倉,後續還要考慮實時數據和模型如何入倉。開源方案實時數倉有以下問題:實時成本高、開發週期長、業務支持不靈活。
Kappa架構的原理就是在Lambda 的基礎上進行了優化,將實時分析和流部分進行了合併,將數據 存儲和通道以消息隊列進行替代。因此對於Kappa架構來說,依舊以流處理為主,但是數據卻在數據湖 層面進行了存儲和簡單建模,當需要進行離線分析或者再次計算的時候,則將數據湖的數據再次經過消息隊 列重播一次。Kappa架構看起來簡潔,但是施難度相對較高,尤其是對於數據回放部分。
如下圖所示,MaxCompute Hologres可以將實時、離線、分析、服務一體化,做到了實時離線聯合分析,冷熱溫三類數據全洞察。
四、實時分析案例
針對實時分析的常用場景,Saas模式雲數據倉庫MaxCompute在擁有了Hologres後提出了:實時、離線、分析、服務一體化方案。即前文描述的Lambda架構簡化、交互查詢增強、kappa架構增強,實時離線聯合分析,冷熱溫三類數據全洞察的方案能力。
此方案適用於電商、遊戲、社交等互聯網行業數據化運營,如智能推薦、日誌採集分析、用戶畫像、數據治理、業務大屏、搜索等場景。
方案優勢:阿里巴巴最佳實踐的大數據平臺,1)技術領先性;2)降本提效;3)高附加值業務收益;
涉及產品: 日誌服務SLS、數據傳輸DTS、DataHub、實時計算Flink、交互式分析、雲數倉MaxCompute、數據治理DataWorks、Quick BI 報表、 DataV大 屏、ES搜索、機器學習PAI。
小影是一款原創視頻、全能剪輯的短視頻社區APP,面向大眾提供短視頻創作工具,包括視頻剪輯、教 程玩法、視頻拍攝,谷歌應用商城收入榜前五,全球累計用戶突破8.9億。
用戶標籤數據開發:客戶通過 MaxCompute 針對每 天APP產生的客戶基礎屬性數據、 行為日誌數據、內容數據等進行 計算,每天離線更新用戶標籤的 數據,支持營銷業務的使用。
用戶畫像實時洞察:客戶基於MC離線計算好的用戶標 籤,通過MC-Hologres進行多標 籤、多維度的實時分析,瞭解用戶 屬性標籤與內容標籤之間的關聯性, 洞察交叉銷售機會,並通過人群圈 選,進行APP消息PUSH。
實時視頻推薦:客戶通過Flink + MaxCompute +MC- Hologres +PAI搭建個性化 實時推薦系統,基於用戶特徵和實 時行為特徵,實時推薦個性化的短 視頻內容。
關鍵詞:Saas模式,MaxCompute,雲數據倉庫,實時分析,交互式分析