雲計算

深入解讀:獲得 2021 Forrester 全球雲數倉卓越表現者的阿里雲數據倉庫

概述:

2021年3月25日,全球權威分析機構 Forrester 發佈 《The Forrester Wave™: Cloud Data Warehouse, Q1 2021》研究報告,阿里雲憑藉產品現有能力、產品戰略、市場表現三項優勢,進入 Forrester Wave 2021 Q1 雲數據倉庫卓越表現者象限,成為入選此次評測的唯一中國廠商。

image.png

本次 Forrester 針對入選的 13 家國際最重要的雲數據倉庫服務商(見下表), 從產品、戰略、和市場表現三個維度,26個指標 60 多項評估細則進行了研究、分析和評分。最終報告顯示了每個提供商在每項的評比分數,幫助企業架構專業人員根據他們的需求選擇正確的廠商。作為讀者,也能從 Forrester 的這些評測項中理解、學習現代雲數據倉庫的定義、應具備能力以及未來的發展趨勢。

image.png

下面我們就針對 Forrester 的報告內容,結合阿里雲 MaxCompute、DataWorks、AnalyticDB 幾款雲數倉產品,對現代雲數倉做一下全面的技術解讀。

技術解讀:

現代雲數倉的內涵:Forrester 認為現在雲數倉需要具備的幾個特性:

  • 極致彈性:在分鐘級別內提供任意規模,能夠自動優化查詢
  • 存算分離:按需獨立擴展計算和存儲等資源(存算分離)並能無感知自動升級。
  • 為了滿足對更集中、實時和自助式分析日益增長的需求,雲數倉供應商將繼續專注於與數據湖和對象存儲的原生集成。
  • 通過自助服務,簡化大型複雜倉庫的訪問和管理。
  • 能提供並行處理、壓縮、分區、索引、查詢優化和動態資源供應方面的高級功能。
  • 最常見的雲數倉應用場景包括客戶360°分析、基於AI/機器學習 ML 的分析、垂直領域和實時分析的場景。

Forrester 評測領先項(得5/滿分5分)

給客戶帶來的價值

  1. 數據湖集成(Data Lake Integration)
  2. 數據類型(Data Types)
  3. 數據集成(Data Ingestion / Loading)

客戶將數據湖(Hadoop、雲對象存儲 OSS)的靈活性、生態豐富與雲數據倉庫的企業級能力進行融合,可以通過 MaxCompute 湖倉一體方案,DataWorks 數據集成以及對豐富數據類型的支持,並通過 DataWorks 構建數據湖和數據倉庫融合的數據開發、管理和數據治理平臺。

  1. 性能(Performance Reference)
  2. 擴展性(Scalability Feature)

客戶能享受以下 MaxCompute 的 Share Everything 的架構設計帶來的如下好處:

  1. 開箱即用的服務:5 分鐘開通雲數倉服務並能執行第一條 SQL 任務
  2. 靈活的計費模式:支持開通後可以按照單條 SQL 計費的按量付費模式,不用資源不花錢,不怕開通了還繼續收費
  3. 存算分離 + 無限擴展:可以分別對計算和存儲進行擴縮容
  4. 更好的資源利用:多租戶架構帶來更好的資源利用,通過降低成本將技術紅利分享給客戶
  1. 數據安全(Data Security)

數據安全無疑是現在企業數據應用的重中之重。MaxCompute 支持多租戶的使用場景,通過阿里雲賬號認證體系對於用戶的每一個 HTTP 請求都會進行簽名認證,針對不同的用戶數據進行數據存儲隔離,用戶數據被離散存儲在分佈式文件系統中。可以同時滿足多用戶協同、數據共享、數據保密和安全的需要,做到真正的多租戶資源隔離。同時在網絡隔離,鑑權認證,數據安全,傳輸、存儲加密,日誌審計等。詳情參見安全白皮書

  1. Support(售後服務)
  2. Subcription(訂閱模式)

Forrester 從客戶得到認證:證實阿里雲擁有一個經過驗證的全球技術服務和支持團隊,可以滿足當前和未來的增長需要,同時擁有最多的資源和專業知識來處理複雜的全球和本土雲數倉的實施。客戶對阿里云云數倉的技術支持非常滿意。

同時,MaxCompute 提供 Pay-as-you-go 計費模式,只對資源(存儲、服務器和服務)的使用收費。支持按存儲、大小、查詢和用戶數量粒度定價。可以分別為計算和存儲定價。Forrester 從客戶側證實阿里雲有最好的計費模式和最好的性價比。

以下從技術角度闡述為什麼阿里雲數倉產品能夠支撐上面的滿分項:

1. 架構設計:

阿里雲數據倉庫 MaxCompute 從設計之初採用了“Share Everything”的架構設計。按 Forrester 的說法,這是一個具有前瞻性(future-proof) 的技術架構。它引領了雲數倉架構的趨勢,並提供了最佳的客戶靈活性和開箱即用的解決方案。同時支持 SQL、機器學習\深度學習、圖計算等多種計算模式。

除了支持第一方的計算模式外,一個關鍵區別是 MaxCompute 有一個開放的設計,第三方引擎(如Spark,Presto)也可以接入。在 2019年-2021年,MaxCompute 發展出了湖倉一體的架構設計,通過湖倉一體 MaxCompute 無縫集成雲對象存儲和 Hadoop 生態。這些幫助我們在 Forrester 技術評比中,在性能、擴展性、數據湖集成 3 項取得最高分(5分),達到世界領先水平。

  • 在性能項的評比中,MaxCompute 支撐了相比其它廠商更高每天作業總數
  • 在擴展性的評比中,MaxCompute 提供最好的可伸縮性特性,包括:

        a) 可以對於任意規模的計算或存儲進行接近無限的擴展,且不需要中斷或停機支持

     b) 可以獨立、自動地擴展存儲和計算。可支持 EB 級別以上的數據規模。

  • 在數據湖集成項評比中:通過湖倉一體架構,無縫集成對象存儲(OSS)湖,以及 Hadoop 生態,並通過 DataWorks 提供統一的數據開發、管理、治理平臺。

2. 實時性:

  • 阿里雲數倉通過 DataWorks 數據集成功能,支持三種實時數據集成方式:數據集成流式數據導入、對接 datachub、Kafka 等發佈-訂閱子系統、 CDC 方式導入。
  • 可以流式地將數據輸入到 MaxCompute 或 AnalyticsDB 中進行查詢。(或通過Flink 處理的實時 BI 場景)
  • 支持數據服務場景和在線機器學習(Alink,流式算法包以及深度學習框架 TensorFlow)

3.高性能存儲

  • AliORC:MaxCompute 採用與開源 ORC 兼容的列式存儲格式 AliORC,比開源 ORC 讀性能快 50%,同時支持 MaxCompute、機器學習引擎 PAI等。 MaxCompute 團隊也是開源 ORC 社區最大的貢獻者
  • 自動存儲分層,通過算法支撐的 4 級自動存儲分級,提供更好的讀寫性能

4.企業級的安全性:

MaxCompute 和 DataWorks 數據安全衛士可以發現和識別敏感數據,並支持靜態數據加密,支持tokenization,動態和靜態數據 Masking;通過數據質量和 Logview 檢查數據質量和漏洞評估,利用阿里雲 ActionTrail 提供審計功能。同時數倉內部支持自主訪問控制,強制訪問控制 (labelSecurity),提供項目、表、行和列級的訪問控制。在合規方面支持全球主流的安全標準:ISO 27001, SOC1/2/3, FIPS-140, GxP (21 CFR Part 11), PCI等。詳細名單在在白皮書中均有描述。

同時,MaxCompute 除了傳統的通過認證和授權的方式共享數據外,我們還觀察到了隱私保護的數據共享,甚至是在不受信任的群體之間共享的趨勢。通常我們將這種共享需求稱為“數據可用不可見”。現在阿里雲也正在投資這個領域以及包括基於差分隱私的計算和聯合計算在內的技術。

在本次 Forrester 技術評比中:雲數倉 MaxCompute 和 DataWorks 的安全能力以及技術前瞻性,取得了最高分(5分),達到世界領先。

5.統一的數據開發、管理治理平臺 DataWorks:

MaxCompute 有一個統一的數據部署、治理和管理平臺 DataWorks。它支持不同工作負載的數據集成、元數據開發。我們的數據管理可以進一步編排不同的工作負載。例如,客戶可以從數據集成、數據清理、特徵工程、模型訓練、模型服務等方面構建完整的大數據和 AI 通道。

關於雲數倉的發展趨勢:

隨著 IoT 和 5G 技術的不斷成熟,設備產生的數據將遠超過與人相關的行為數據,同時越來越多的企業也將沉睡的數據湖中的數據喚醒,越來越多的角色也加入到數據分析、機器學習的領域中。這為雲數據平臺帶來新的挑戰,雲數倉需要:

  1. 提高平臺自服務能力,高度自動化的運維和管理,降低數據倉庫、機器學習以及深度學習的使用門檻
  2. 支持多方數據共享的同時保護數據隱私,數據可用不可見
  3. 與數據湖的深度集成,統一的開發平臺、數據資產管理

總結:

最後引用 Forrester 報告對阿里雲數據倉庫的總結:阿里雲數倉服務提供廣泛的基礎設施、平臺和分析服務,包括 MaxCompute、AnalyticDB 和 DataWorks 服務,以支持各種大規模數據倉庫客戶案例。雖然阿里雲數據倉庫服務大部分部署在中國,但 MaxCompute、AnalyticDB 和 DataWorks 在全球 16個國家和地區提供服務,客戶涉及金融、互聯網、生物醫藥、能源、交通和媒體行業。阿里雲的 MaxCompute、AnalyticDB 和 DataWorks提供實時和 EB 級的能力,以支持任何數據倉庫的需求。

最後是來自客戶對阿里雲數倉產品的評價:

阿里雲數倉供多種計算模型、機器學習能力、服務區域、技術支持、商業價值、工具和高端可擴展性。讓客戶在最常用的場景包括 BI 加速、基於AI/ML 的分析、數據倉庫現代化、數據科學以及實時和風險分析領域獲得最佳的應用體驗。

Leave a Reply

Your email address will not be published. Required fields are marked *