開發與維運

MaxCompute湖倉一體方案

image.png

1.場景描述

  • 自建數據湖與雲數倉的融合解決方案,MaxCompute與自建的Hive集群做數據打通,通過存儲共享,元數據鏡像等方式,解決傳統模式下的存儲冗餘,計算資源彈性能力弱的痛點。可大幅度增強系統的資源彈性,解決業務高峰期計算資源不足的問題。

2.方案優勢

  • 業務無侵入性:現有業務無需改造。
  • 性能優化:MaxCompute在SQL上做了大量優化與能力沉澱,可提高SQL運行性能,降低計算成本。
  • 靈活管理:元數據實時同步,無需額外管理數據同步任務。
  • 資源彈性:利用MaxCompute計算池彈性進行海量數據計算。

3.部署架構圖

image.png

4.選用的產品

  • VPC:專有網絡VPC(Virtual Private Cloud)是用戶基於阿里雲創建的自定義私有網絡, 不同的專有網絡之間二層邏輯隔離,用戶可以在自己創建的專有網絡內創建和管理雲產品實例,比如ECS、負載均衡、RDS等。更多信息,請參見:www.aliyun.com/product/vpc
  • ECS:雲服務器ECS(Elastic Compute Service)是一種簡單高效、處理能力可彈性伸縮的計算服務。幫助您構建更穩定、安全的應用,提升運維效率,降低IT成本,使您更專注於核心業務創新。更多信息,請參見:www.aliyun.com/product/ecs
  • OOS:運維編排服務(Operation Orchestration Service,簡稱OOS)能夠自動化管理和執行運維任務。在待執行模版中,您可定義運維任務、執行流程、執行的輸入和輸出等,然後僅需執行模版即可實現自動化運維。
  • MaxCompute:MaxCompute(原ODPS)是一項大數據計算服務,它能提供快速、完全託管的PB級數據倉庫解決方案,使您可以經濟並高效的分析處理海量數據。更多信息,請參見:www.aliyun.com/product/odps
  • CEN:雲企業網(Cloud Enterprise Network)幫助您在VPC間,VPC與本地數據中心間搭建私網通信通道,通過自動路由分發及學習,提高網絡的快速收斂和跨網絡通信的質量和安全性,實現全網資源的互通,幫助您打造一張具有企業級規模和通信能力的互聯網絡。
  • HDFS:Hadoop分佈式文件系統(HDFS)被設計成適合運行在通用硬件上的分佈式文件系統,它和現有的分佈式文件系統有很多共同點。但同時,它和其他的分目錄布式文件系統的區別也是很明顯的。HDFS是一個高度容錯性的系統,適合部署在廉價的機器上。HDFS能提供高吞吐量的數據訪問,非常適合大規模數據集上的應用。
  • Apache Hive:Apache Hive是基於Hadoop的一個數據倉庫工具,可以將結構化的數據文件映射為一張數據庫表,並提供簡單的SQL查詢功能,可以將SQL語句轉換為MapReduce任務進行運行。其優點是學習成本低,可以通過類SQL語句快速實現簡MapReduce統計,不必開發專門的MapReduce應用,十分適合數據倉庫的統計分析。
  • ZooKeeper:ZooKeeper是一個分佈式的,開放源碼的分佈式應用程序協調服務,是Google的Chubby一個開源的實現,是Hadoop和Hbase的重要組件。它是一個為分佈式應用提供一致性服務的軟件,提供的功能包括:配置維護、域名服務、分佈式同步、組服務等。

5.詳細信息

  • 點擊這裡,查看MaxCompute湖倉一體方案最佳實踐詳情。

6.更多更佳實踐

  • 點擊這裡,查看更多阿里雲最佳實踐。

我們是阿里雲智能全球技術服務-SRE團隊,我們致力成為一個以技術為基礎、面向服務、保障業務系統高可用的工程師團隊;提供專業、體系化的SRE服務,幫助廣大客戶更好地使用雲、基於雲構建更加穩定可靠的業務系統,提升業務穩定性。我們期望能夠分享更多幫助企業客戶上雲、用好雲,讓客戶雲上業務運行更加穩定可靠的技術,您可用釘釘掃描下方二維碼,加入阿里雲SRE技術學院釘釘圈子,和更多雲上人交流關於雲平臺的那些事。

image.png

Leave a Reply

Your email address will not be published. Required fields are marked *