雲計算

大數據近實時數據投遞MaxCompute

image.png

1.場景描述

本文介紹離線大數據場景使用MaxCompute構建雲上近實時數倉,打通雲下數據上雲鏈路,解決數據複雜類型支持和動態分區問題,滿足高級數據處理需求的最佳實踐。

2.解決問題

  • 混合雲環境下,現有業務系統零改造,打通數據上雲鏈路。
  • 使用UDF實現複雜數據類型轉換和數據動態分區。
  • 使用DataWorks配置週期調度業務流程,數據自動入倉。
  • 藉助MaxCompute優化計算引擎,實現降本增效。

3.部署架構圖

image.png

圖1:部署架構示意圖

4.選用的產品

  • 雲服務器ECS:Elastic Compute Service,簡稱ECS,是一種簡單高效、處理能力可彈性伸縮的計算服務。詳見:https://www.aliyun.com/product/ecs
  • 專有網絡VPC:Virtual Private Cloud,簡稱VPC,- 是基於阿里雲創建的自定義私有網絡,不同的專有網絡之間二層邏輯隔離。您可以在自己創建的專有網絡內創建和管理雲產品實例,比如ECS、負載均衡、RDS等。在部署雲資源前,您需要結合具體業務,規劃VPC和交換機的數量及網段等。詳見:https://www.aliyun.com/product/vpc
  • 訪問控制RAM:是阿里雲提供的管理用戶身份與資源訪問權限的服務。詳見:https://www.aliyun.com/product/ram
  • E-MapReduce EMR:是構建在阿里云云服務器ECS 上的開源Hadoop、Spark、HBase、Hive、Flink 生態大數據PaaS 產品。提供用戶在雲上使用開源技術建設數據倉庫、離線批處理、在線流式處理、即時查詢、機器學習等場景下的大數據解決方案。詳見:https://www.aliyun.com/product/emapreduce
  • 大數據計算服務MaxCompute:是一項大數據計算服務,它能提供快速、完全託管的PB級數據倉庫解決方案,使您可以經濟並高效地分析處理海量數據。詳見:https://www.aliyun.com/product/odps
  • 數據總線DataHub:是阿里雲提供的流式數據(Streaming Data)服務,它提供流式數據的發佈(Publish)和訂閱(Subscribe)的功能,讓您可以輕鬆構建基於流式數據的分析和應用。詳見:https://www.aliyun.com/product/datahub
  • DataWorks:是一個提供了大數據OS能力、並以all in one box的方式提供專業高效、安全可靠的一站式大數據智能雲研發平臺。同時能滿足用戶對數據治理、質量管理需求,賦予用戶對外提供數據服務的能力。詳見:https://www.aliyun.com/product/bigdata/ide

5.詳細信息

  • 點擊這裡,查看大數據近實時數據投遞MaxCompute最佳實踐詳情。

6.更多更佳實踐

  • 點擊這裡,查看更多阿里雲最佳實踐。

我們是阿里雲智能全球技術服務-SRE團隊,我們致力成為一個以技術為基礎、面向服務、保障業務系統高可用的工程師團隊;提供專業、體系化的SRE服務,幫助廣大客戶更好地使用雲、基於雲構建更加穩定可靠的業務系統,提升業務穩定性。我們期望能夠分享更多幫助企業客戶上雲、用好雲,讓客戶雲上業務運行更加穩定可靠的技術,您可用釘釘掃描下方二維碼,加入阿里雲SRE技術學院釘釘圈子,和更多雲上人交流關於雲平臺的那些事。

image.png

Leave a Reply

Your email address will not be published. Required fields are marked *