飛天大數據產品價值解讀— SaaS模式雲數據倉庫MaxCompute

飛天大數據產品價值解讀 — SaaS模式雲數據倉庫 MaxCompute
摘要：企業在數字化轉型過程中面臨數據技術平臺建設和運營的諸多挑戰，隨著現代化數據倉庫向多功能、服務化方向發展演進，技術側的變革為解決企業數據平臺各項挑戰帶來新的可能。MaxCompute作為阿里雲飛天大數據中的數據倉庫產品，已經成為了阿里內部及眾多的外部客戶廣泛使用且高度信賴的企業數據平臺。本次直播將為您介紹SaaS模式雲數據倉庫MaxCompute核心能力及優勢，並結合大數據分析平臺經典使用場景，為您介紹MaxCompute 為企業帶來的業務敏捷性、面向分析統一平臺、顯著降低TCO等關鍵業務價值。

演講嘉賓簡介：曲寧，阿里雲智能產品專家。
以下內容根據演講視頻以及PPT整理而成。
觀看回放https://yqh.aliyun.com/live/detail/15429
本次分享主要圍繞以下五個方面：
一、飛天大數據平臺解決方案
二、MaxCompute:SaaS模式企業級雲數據倉庫
三、MaxCompute產品價值
四、基於MaxCompute的解決方案及案例介紹
五、總結

一、飛天大數據平臺解決方案
企業級數字化轉型挑戰
目前，企業在數字化轉型過程中面臨著很多的挑戰，這些挑戰可以分為幾類問題：首先，企業主要以應用為導向，快速的滿足業務需求。為了滿足不同部門的業務需求，建立了很多數據平臺，這些平臺缺乏整體規劃，形成了很多的數據孤島，數據共享成本高，缺乏企業級統一的數據獲取出口，難以自助分析。
其次，現代企業要求業務團隊具備了面向業務快速變化的敏捷創新能力，需要具備數據智能的研發能力，面向用戶體驗的場景創新能力，都對IT系統提出了更高要求。如何能夠滿足不同團隊對數據分析的要求，滿足內部用戶的開發使用體驗，這個過程中開發效率成為了敏捷創新的阻礙因素，從產品的規劃到最終的上線往往橫跨數月的時間。
另外，企業過去通過自建大數據平臺的方式來獲得很強的技術平臺掌控能力，但在實際的IDC運營管理過程中會出現運維成本過高的問題，同時因為IT人才成本高、流動大，自建平臺存在服務質量不高的情況。企業往往按照業務需求做資源規劃，導致日常資源利用率不高，存在很多資源浪費，同時在業務波峰時會產生資源不夠的情況。企業自建平臺基於開源的組件，會存在系統安全、數據安全及合規方面的問題和隱患。

現代化大數據平臺
現代化數據倉庫向多功能多服務化演進，技術側的變革帶來了解決企業數字化轉型的挑戰的可能。現代化大數據平臺主要有兩個方向，首先是雲計算的興起，逐步往SaaS化方向演進，提供按需分配的計算需求。第二點由於傳統的數據倉庫難以滿足現代化大數據的需求，需要建立實時化的數倉，對非結構化數據進行低成本的分析，同時通過AI能力挖掘更深的價值。

飛天大數據平臺解決方案
大數據平臺解決方案是一種多產品組合的解決方案，通過多種產品間組合，構建多種多樣的數據應用。阿里雲採用飛天大數據平臺解決方案，此方案適用於電商、遊戲、社交等互聯網行業數據化運營場景，如智能推薦，日誌分析，業務運營分析，用戶畫像，數據治理，業務大屏以及搜索等。阿里雲最佳實踐的大數據平臺同時具備技術領先性和降本提效，提供業務價值收集等優勢。飛天大數據平臺解決方案中MaxCompute作為旗艦產品，成為了非常核心的角色。

二、MaxCompute:SaaS模式企業級雲數據倉庫
MaxCompute產品優勢
MaxCompute目前的定位是SaaS模式企業級雲數據倉庫，MaxCompute服務託管在阿里雲上，創建超大規模的資源池，由阿里雲進行部署和管理，對外提供API接口，用戶使用時通過不同的用戶端搜索API的方式訪問使用。MaxCompute免去了開通的步驟，開箱即用。其次MaxCompute有超大的資源池，具備按需使用，高彈性的特點。第三點，MaxCompute是存儲計算分離的架構，提供結構化的存儲，提供按需使用的計算資源。在低成本情況下提供較好的可擴展性。

應用場景
MaxCompute在服務化的場景下，廣泛的支持幾種場景，首先是to C營銷數據分析場景，對用戶行為進行收集分析，構建畫像，打標籤，為用戶做更多的服務。還有針對線上的運營活動，實時收集和查詢線上運營情況，做運營策略的變更。同時為各行業大家數據倉庫，從而構建更多的數據應用。

MaxCompute產品技術特性
第一點：MaxCompute是全託管的Serverless的在線服務，不需要做資源的開通和管理，用戶可以用使用近乎無限的計算資源。同時免去了很多工作，由阿里雲做統一的版本升級，資源的伸縮和故障的處理，進一步縮減運維上的投入。
第二點：MaxCompute可以提供最好的彈性能力和擴展性，由於存儲與計算分離的特點，支持TB到EB數據規模的擴展能力，可以讓企業將全部數據資產保存在一個平臺上進行聯動分析，消除數據孤島。由於Serverless資源可以實時根據業務峰谷變化帶來的需求變化分配資源，進行自動擴展。MaxCompute算力是非常強的，單作業可根據需要秒級獲得成千上萬Core，當數據級別達到EB級別時，MaxCompute也能很好的支持正常運轉。
第三點：MaxCompute融合了數據探索能力，首先MaxCompute與阿里雲的warehouse是深度集成的關係，默認集成了對數據湖(如OSS服務) 的訪問分析，可以處理非結構化或開放格式數據，還支持外表映射、通過Spark直接訪問方式開展數據湖分析。通過數據倉庫與外表的映射，在同一套數據倉庫服務下和用戶接口下，實現數據湖分析和數據倉庫的關聯分析。第四點：傳統的BI能力已經無法滿足業務需求，企業更多的需要通過AI能力將數據集成到平臺中，支持更多的場景。MaxCompute與PAI無縫集成，提供BI+AI一體化的產品能力，從而提供強大的機器學習處理能力，用戶可使用熟悉的Spark-ML開展智能分析，同時可以使用Python機器學習三方庫。
第五點：目前，實時分析成為了很火熱的話題，MaxCompute也支持流式數據的實時寫入（Tunnel），並在數據倉庫中開展分析。與雲上主要流式服務深度集成，輕鬆接入各種來源流式數據。MaxCompute可以支持高性能秒級彈性併發查詢，滿足近實時分析場景。
第六點：MaxCompute支持多種計算引擎，通過內建Apache Spark引擎，提供完整的Spark功能。與MaxCompute計算資源、數據和權限體系深度集成。
第七點：MaxCompute提供統一而豐富的運算能力，包括離線計算（MR，DAG，SQL，ML，Graph）、實時計算（流式，內存計算，迭代計算），涵蓋通用關係型大數據，機器學習，非結構化數據處理，圖計算等。
第八點：目前，數據中臺往往有數據共享的需求，企業的數據資產可以被企業的每個人檢索到，每個人知道有哪些數據，同時通過安全合規的權限控制讓每個人可以輕鬆獲得企業數據資產，進行進一步的開發。此時則需要數據中臺提供統一的元數據視圖，MaxCompute通過提供租戶級別的統一元數據，讓企業能夠輕鬆獲得完整的企業數據目錄，更進一步，對於更廣泛的數據源，通過外表建立數據倉庫與外部數據源的連接。如此，數據中臺可以做到無需收集所有數據，但是仍然可以為用戶提供統一數據視圖，滿足數據共享的需求。
第九點：MaxCompute不是簡單的計算引擎，它是一個完整的服務，因此提供了 SLA保證：99.9%服務可用性保障，支持自助運維與自動化運維，完善的故障容錯（軟件，硬件，網絡，人為）。

三、MaxCompute產品價值

雲原生場景
Serverless已經成為了數據平臺的發展趨勢，Serverless天然的按需分配，高擴展性的能力是解決數據中臺問題的最佳的方案。MaxCompute是Serverless的雲原生數據倉庫服務，提供超大規模的資源市場，用戶感知不到資源池，只是需要在邏輯層做項目的開通，數據倉庫的自建，數據的建模，在項目空間中做數據分析。MaxCompute是一套非常敏捷的服務模式，極大的降低數據平臺的門檻，將以月為單位的數據處理過程降低到天級別，加速價值實現。

示例: 2 min-從開通MaxCompute服務到基於公共數據集運行第一個SQL查詢
進入DataWorks管理控制檯，點擊創建工作空間，輸入工作空間名稱、點擊下一步選擇MaxCompute按量付費選項、描述實例名稱、選擇MaxCompute數據類型及訪問身份。

創建完之後進入DataWorks數據開發的如入口中，開始第一個SQL的處理。MaxCompute提供了面向全網的公共數據集，用戶都可以進行查詢。整個過程從開通到第一個查詢只需要兩分鐘的時間。Serverless意味著更敏捷的業務響應和快速試錯、創新。

這種模式帶來了兩種好處，一種是初創企業可以在低成本的環境下，通過鏈路快速將商業場景走通，快速驗證業務價值。其次，在大企業中，有很多新的組織和部門，他們需要獨立的環境進行新穎的開發，MaxCompute可以很好的支持敏捷的場景。

Serverless意味著簡單、強大計算能力，無需容量規劃、匹配業務快速變化的需求。下圖左側是一個複雜的作業，數據規模非常大，執行單個作業就需要很多資源，MaxCompute可以支持不同規模的數據級，提供強大的算力。

Serverless模式真正實現了按需（On-demand）分配資源，不再以集群或者隊列級別進行資源伸縮，以每個作業為單位動態分配合適的資源，無需用戶提前容量規劃、消除了資源容量與業務需求不能良好匹配的問題。
但是，我們實際接觸客戶過程中發現，不是所有的作業需要最佳的性能，不同企業、不同階段以及不同的任務類型，用戶會考慮在成本與性能間有不同的取捨。
不同企業算力需求及偏好存在差異，在企業初創時期，數據級不大，成本不高，但是隨著數據級的增長，用戶增多，成本會非常高，此時MaxCompute可以提供按需使用的彈性算力。不僅如此，MaxCompute還提供包年包月的套餐，滿足常規需求，幫助企業穩定財務支出。在企業業務規模較為穩定時，可以購買這類套餐，支持作業優先級，保障關鍵任務穩定產出。支持存儲與計算資源包購買。當面臨臨時查詢需求時，對算力要求非常高，而且不屬於週期性需求，MaxCompute通過將多計算資源打通，融合打通包年包月與按需使用的彈性資源，用戶只需聯合開通，即可實現更優的成本與性能平衡的資源解決方案。最後MaxCompute還可以搶佔空閒資源，搶佔並使用服務空閒計算資源，此時的價格較包年包月標準計算資源下降74%。

多租戶系統
MaxCompute是天然的多租戶系統，在多租戶環境下保障租戶間的隔離性，同時通過細粒度權限控制，實現跨業務、跨組織間進行數據共享。企業不同的組織和部門將數據統一集中在資源池中，實現統一完整的數據資產視圖。MaxCompute支持跨項目間的數據訪問授權，高效、低成本地在企業內共享數據，實現每個人對企業各項數據資源的受控使用。 MaxCompute已成為業界最完整的安全管理體系，支持跨項目數據安全管理、細粒度的訪問控制、數據加密、隱私數據保護、操作使用行為審計能力。

多租戶系統有諸多優勢同時對多租戶平臺的安全管理能力也提出了更高的要求。如當下安全事件頻發，那麼雲上大數據服務應如何保障企業數據和服務安全？MaxCompute在平臺創立之期就是天然的Serverless和多租戶的環境，阿里對MaxCompute內置了大量的安全管理機制，這些安全機制提供了全面、多層次的安全管理能力，持續保護雲上數據服務安全。首先是基礎設施託管的安全與保障，同時面向訪問控制與授權、數據安全、風險管控、多租戶安全隔離做了很多管理功能。具體而言，在數據安全方面MaxCompute提供數據加密、實時審計和備份恢復等功能。

示例: 用戶異常操作行為實時審計+數據自動備份及恢復
下圖中可以發現tab_dev表被刪除了，遇到這種情況常見的管理步驟是先檢查誰刪除了這種表，MaxCompute提供了歷史事件查詢的頁面。

從下圖中可以找到tab_dev表是由誰，在什麼時間，通過什麼操作刪除了，方便後續追溯。MaxCompute為用戶提供了實時審計能力。

Demo3：持續備份與恢復
在數據丟失之後，重要的數據需要找回。MaxCompute內建了服務級別的自動備份能力，通過如下圖中的restore命令，可以找回丟失的數據。

面向分析的統一數據平臺
MaxCompute是面向分析的統一數據平臺，一個平臺滿足數據時代的多種需求，簡化企業數據平臺架構，加速獲取深入的業務洞察。MaxCompute具備更實時的數據洞察能力，通過在產品級別打通集成消息服務，採集Datahub自定義日誌，實時的獲取事件並進行分析。MaxCompute中有很多數據格式，有些數據格式不適合放在同一處，MaxCompute可以提供聯邦查詢的能力，聯動數據庫系統，數據不加載在同一個庫中，但是可以提供同一種數據處理平臺。MaxCompute是面向分析的數據平臺，與 PAI 無縫集成，同時內建主流機器學習框架支持，無需移動數據獲得深入洞察分析。

MaxCompute深度集成了Spark，可以實現“一套數據支持多種引擎”，在全託管的統一數據平臺上使用主流或者熟悉的計算引擎，可以滿足更豐富計算場景的需要。目前很多用戶習慣使用Spark引擎，MaxCompute Spark是MaxCompute提供的Apache Spark計算框架，完全兼容Spark的API、應用及生態工具，共享了同樣的數據存儲，同樣的計算資源，同一種數據庫管理體系。MaxCompute項目用戶，可以在統一的數據存儲、權限管控體系內，利用Spark進行應用開發。

現代化的數據倉庫 + 數據湖解決方案
數據湖成為了雲上數據存儲和交換的中心，大量的非結構化數據存放在OSS上，通過外表或者Spark直接與雲上數據湖進行很好的打通，做聯邦外表的查詢，通過load命令將OSS上的數據快速的加載到數據倉庫中。MaxCompute可以連接企業多種外部數據源，通過統一、一致的數據管理體系（MaxCompute統一元數據），多種來源的數據可在統一的計算環境中跨孤立存儲系統進行無縫數據的訪問和處理。

BI+AI集成的一體化數據平臺
真實的人工智能場景依賴大數據平臺提供數據供給，進行數據預處理。如何在企業統一的數據資產及安全體系之上，同時開展BI分析和AI分析，充分挖掘數據價值? 最理想的狀態是不移動數據，將計算與數據解耦合，在一套平臺上處理大數據AI的分析。 MaxCompute+PAI是大數據與人工智能融合的分析平臺，利用PAI可以很好的處理MaxCompute中的數據，從而支持智能化分析。

高性能低成本的技術底座
數據平臺發展到目前為止都是在解決性能、成本、效能等幾方面的問題，若對比分析自建平臺和MaxCompute中成本的比重，自建平臺成本結構主要包括一次性軟硬件成本、擴容、管理，運維等等方面的成本。MaxCompute成本結果包括雲服務使用成本，但系統管理成本是非常低的。MaxCompute可以極大的減少前期投入，快速驗證價值。其次，MaxCompute在30TB及100TB數據級上都可以得到很好的性能，相比於Hadoop自建，成本低一半，性能快一倍，得到了TPC組織的官方認可。MaxCompute可以提供高性能、低成本的大數據分析服務。通過對比IDC自建平臺與MaxCompute的成本，MaxCompute可以節省1/3的真實TCO成本。

MaxCompute不止在離線倉上有很強的算力的能力，同時面向BI和集成分析場景，支持彈性併發加速的能力。從下圖可以發現，MaxCompute在不同的規模的測試集上都有非常優秀的表現。

開放生態的數據平臺
拋開獨立的技術平臺，離不開周邊系統的配套，離不開與企業環境的集成。MaxCompute擁有開放生態的服務，支持與眾多服務集成，包括開放的一方服務接口，如MaxCompute Studio IDE、JDBC、SDK、開源Spark Connector、開源Kafka Connector、MMA遷移工具等。同時MaxCompute可以融入企業已有的IT環境中，與阿里雲眾多的服務進行深度的集成，包括DataWorks、PAI、Quick BI、Datahub、DTS、日誌服務、阿里雲Kafka等，最大化降低數據鏈路集成工作。MaxCompute 還集成了很多第三方的服務，包括Tableau、R、Python、Python SDK等，最終提升開發效率。阿里雲提供了完整的大數據產品解決方案，包括數據的採集，實時離線一體化計算、數據應用的展示，以MaxCompute 作為數據倉庫的底座可以快速的與阿里雲多個產品集成，滿足企業的智能化應用需求。

企業級可治理的數據管理平臺
當企業發展到一定規模後，必然會遇到數據治理問題。數據與業務增長並不是線性關係，數據是指數級增長，業務是平滑增長。各個數據平臺打通之後，數據治理的成本越來越高。阿里巴巴大數據治理最佳實踐，提供數據發現機制，支持統一元數據採集與數據資產目錄構建支持數據探查與數據分析、聯邦查詢以及資源優化服務，讓企業更方便地探查數據價值，更有效的統一元數據管理，更安全的生產數據，更智能的優化大數據成本。以數據存儲為例，很多數據存儲在數據倉庫中但無法使用，有些作業沒有計算，有些作業重複計算，阿里通過自動化方式，圍繞引擎採集第一手數據，提供多領域多視角優化視圖。

四、基於MaxCompute的解決方案及案例介紹

MaxCompute能夠解決自建數據平臺的痛點問題
自建平臺面臨著很多的挑戰，包括建設成本高、擴展性與彈性不足、資源利用率低、運維維護成本高等。MaxCompute 雲上的服務可以很大程度上解決雲下的痛點問題。因此，遷移上雲（MMA）已經成為了比較成熟的解決方案，主要包括數據遷移的評估，數據遷移，作業遷移轉換等，從而將自建平臺遷移到雲上，使得MaxCompute 雲上服務的特性和優勢被企業所用。

大數據上雲解決方案
大數據搬站是雲上生態體系的融和與升級，阿里雲就可以提供一套完整的飛天大數據平臺解決方案。某母嬰行業頭部客戶在自建數據平臺是遇到了很多的痛點，包括集群水位高、性能差、亟待大數據綜合治理。同時IDC大數據每年投入成本高，希望降本提效。阿里雲從大數據平臺上雲整體“降本增效”的方案快速切入，遷移到大數據MaxCompute、實時計算、
DataWorks 後，部分任務有10倍以上的性能提升，將開源數據格式進行轉換，存儲從自建Hadoop 3PB降到900T，利用Flink實時數據處理能力，將母嬰客戶現有的場景實時化（“基於用戶ID維度和內容類型的實時行為”、“獲取用戶的實時群聊ID”及“獲取文章的實時發佈信息”），並且基於Flink進行實時推薦增加轉化率。大數據平臺整體成本節省了30%以上。

智能實時數倉解決方案
智能實時數倉解決方案適用於電商、遊戲、社交等互聯網行業大規模數據實時查詢場景。方案優勢包括阿里雲實時數倉全套鏈路，與離線數倉無縫打通。滿足一套存儲，兩種計算（實時計算和離線計算）的高性價比組合。某視頻行業客戶基於MaxCompute+Realtime Compute+Hologres的組合，做目標用戶標籤數據開發、用戶畫像實時洞察、實時視頻推薦等工作。MaxCompute開箱即用、完善生態、性能強悍、彈性資源的特性使得客戶可以最大化的平衡成本和彈性的需要。基於MaxCompute可以支持數據分層、反作弊、計算優化、存儲優化等場景。

MaxCompute產品規格
MaxCompute提供按量計費能力，用戶初期使用時，建議選擇按量計費，根據業務的變化，匹配資源，開通後不使用時無費用產生。當用戶業務比較成熟時，建議選擇包年包月，單價更低，享受更多折扣，控制相關預算和成本。

收費標準
按量計費中依然提供極致的彈性計算資源，資源池為共享型，計算任務按需搶佔，不可指定使用量也無使用限制。當前僅SQL、MR、Spark、交互式分析幾類計算任務有計費。存儲資源只收表（Table）存儲的容量費用。且容量大小是壓縮後的數據。存儲資源中的資源池為共享型，按需存儲，無使用限制。包括表（Table）和資源（Resource）等存儲。數據上傳至MaxCompute為免費，僅對通過公網下載，進行按量收費。包年包月標準版中的計算資源包含計算資源單元和非預留計算資源兩種。包年包月套餐版中包含了計算和存儲兩部分費用，買一份套餐，存儲資源不需要額外計費。

五、總結
MaxCompute作為阿里雲飛天大數據中的數據倉庫產品，已經成為了阿里內部及眾多的客戶廣泛使用且高度信賴的企業數據平臺。同時，MaxCompute可以滿足現代企業數字化多種需求。基於MaxCompute，企業可以構建低成本、高效能的敏捷數據平臺。MaxCompute有超大規模數據存儲能力，將企業多源數據集中在一起，統一數據資產，在企業內部使得每位員工在安全共享的環境下使用和分析數據，從而賦能數據驅動的組織變革。MaxCompute是數據倉庫及數據中臺的理想技術底座。

MaxCompute產品官方地址：https://www.aliyun.com/product/odps
注：想了解更多阿里巴巴大數據計算服務MaxCompute，可以加入社群一起交流。

Leave a Comment Cancel Reply