“數據湖”是近些年來大數據領域湧現的新概念,越來越多的企業開始調研並實踐數據湖架構。在數據湖裡可以集中存儲企業所有的業務數據,包括結構化、半結構化和非結構化的數據,並且數據湖的存儲規模沒有任何限制。用戶可以在數據湖裡保存原始數據,並運行不同類型計算引擎(包括離線ETL、實時分析和機器學習等)進行數據處理,挖掘數據價值。
在傳統IDC架構裡,Hadoop是最常用的部署數據湖的技術,可以利用Hadoop生態圈的組件比如HDFS、Hive、Spark等構建數據湖平臺。同時,因為受到開源軟件本身能力的限制,傳統數據湖技術無法滿足企業用戶在數據規模、存儲成本、查詢性能以及彈性計算架構升級等方面的需求,也無法達到數據湖架構的理想目標。在雲原生時代,我們可以利用公有云的基礎設施,所以數據湖平臺有了更多的技術選擇。本文主要介紹如何基於阿里雲 OSS 、JindoFS 和數據湖構建(Data Lake Formation,DLF)等基礎服務,同時結合阿里雲上豐富的計算引擎,打造一個全新雲原生數據湖體系。
數據湖存儲 OSS
阿里雲對象存儲 OSS 是數據湖的統一存儲層,它基於12個9的可靠性設計,可存儲任意規模的數據,可對接業務應用、各類計算分析平臺,非常適合企業基於OSS構建數據湖。相對於HDFS來說,OSS可以存儲海量小文件,並且通過冷熱分層、高密度存儲、高壓縮率算法等先進技術極大降低單位存儲成本。同時 OSS 對Hadoop生態友好,且無縫對接阿里雲各計算平臺。針對數據分析場景,OSS推出 OSS Select、Shallow Copy和多版本等功能,加速數據處理速度,增強數據一致性能力。
更多閱讀:
• 【數據湖存儲篇】——基於 OSS 的 EB 級數據湖
數據湖加速
對象存儲系統在架構設計上和 HDFS 等分佈式文件系統存在一定差異,同時存儲和計算分離架構中 OSS 是遠端的存儲服務,在大數據計算層面缺少對數據本地化的支持。因此,在 OSS 對象存儲服務的基礎上,阿里雲定製了自研的大數據存儲服務 —— JindoFS,極大的提升數據湖上的引擎分析性能,在TPC-DS、Terasort等常見的benchmark測試中,採用計算存儲分離架構的 JindoFS 性能已經達到或超過了本地部署的HDFS。同時JindoFS 完全兼容 Hadoop 文件系統接口,給客戶帶來更加靈活、高效的計算存儲方案,目前已驗證支持Hadoop開源生態中最主流的計算服務和引擎:Spark、Flink、Hive、MapReduce、Presto、Impala 等。當前 JindoFS 存儲服務包含在阿里雲 EMR 產品中,未來 JindoFS 會有更多的產品形態服務於數據湖加速場景。
更多閱讀:
• 【數據湖加速篇】 —— 基於 JindoFS 構建高效數據湖
• 【數據湖加速篇】 —— 如何利用緩存加速服務來提升數據湖上機器學習訓練速度
• 【數據湖加速篇】 —— 數據湖結構化數據優化與查詢加速方案
• 【數據湖加速篇】 —— JindoDistCp:數據湖離線數據遷移最佳實踐
數據湖構建(DLF)
傳統的數據湖架構非常強調數據的統一存儲,但對數據的Schema管理缺乏必要的手段和工具,需要上層分析和計算引擎各自維護元數據,並且對數據的訪問沒有統一的權限管理,無法滿足企業級用戶的需求。數據湖構建(DLF)服務是阿里雲在2020年9月推出的針對數據湖場景的核心產品,主要為了解決構建數據湖過程中用戶對數據資產的管理需求。DLF 對 OSS 中存儲的數據提供統一的元數據視圖和統一的權限管理,並提供實時數據入湖和清洗模板,為上層的數據分析引擎提供生產級別的元數據服務。
更多閱讀:
• 【數據湖構建篇】 —— 數據湖元數據服務的實現和挑戰
• 【數據湖構建篇】 —— 多引擎集成挖掘湖上數據價值
• 【數據湖構建篇】 —— 多數據源一站式入湖
• 【數據湖構建篇】 —— 數據湖構建服務搭配Delta Lake玩轉CDC實時入湖
雲原生計算引擎
當前阿里雲上眾多雲原生計算引擎已經接入或準備接入數據湖構建服務,包括阿里雲EMR上的開源計算引擎Spark、Hive、Presto、Flink 以及大數據計算服務 MaxCompute、數據洞察 Databricks 引擎和數據湖分析(DLA)等。以最常用的開源引擎 Spark 為例,阿里雲 Spark 可以直接對接數據湖構建的元數據服務,運行在多集群或多平臺上的 Spark 任務共享同一個數據湖元數據視圖。並且 EMR 為 Spark 推出了Shuffle Service服務,Spark 引擎因此獲得雲原生平臺上的彈性擴縮容能力。雲原生計算引擎結合數據湖架構可以獲得更高的靈活度並極大的降低數據分析成本。
另外,雲原生數據倉庫 MaxCompute 和實時 HSAP 分析引擎 Hologres 也準備接入數據湖構建服務,未來數倉和數據湖將會發生什麼樣的化學反應呢?敬請期待。
更多閱讀:
• 【數據湖計算篇】 —— 雲原生計算引擎挑戰與解決方案
• 【數據湖計算篇】 —— Serverless Spark的彈性利器 - EMR Shuffle Service
數據湖治理
DataWorks數據綜合治理可為阿里雲客戶提供統一的數據視圖,用於掌握數據資產的現狀、助力數據質量的提升、提高獲取數據的效率、保障數據安全的合規並提升數據查詢的分析效率。可以有效支撐離線大數據倉庫的構建、數據聯邦的查詢和分析處理、海量數據的低頻交互式查詢和智能報表的構建,以及數據湖方案的實現。
更多閱讀:
• 【數據湖治理篇】 —— 數據開發治理平臺DataWorks
綜上所述,利用阿里雲的基礎組件和整體解決方案,用戶可以方便的構建一個數據湖平臺,完成企業大數據架構轉型。
雲棲大會數據湖專場
點擊下方鏈接預約線上直播,瞭解阿里云云原生數據湖技術最新進展
https://yunqi.aliyun.com/2020/session137?liveId=44835
數據湖構建·Data Lake Formation是阿里巴巴數據湖團隊帶來的最新一站式入湖解決方案,瞭解更多信息請加入產品釘釘交流群