雲計算

阿里雲E-MapReduce全面支持Alluxio,為大數據全“源”加速

導讀:阿里雲 E-MapReduce全面支持Alluxio,Alluxio作為大數據領域存儲層解決方案,將大幅提升EMR產品服務能力。Alluxio可以對數據源進行性能優化和緩存加速,讓計算層和存儲層能夠輕裝上陣,獨立優化,又能保持密切依賴關係。下面將為大家分享阿里雲 E-MapReduce Alluxio的實踐經驗與技術方案。

本文將從三個方面進行介紹:
1、什麼是Alluxio
2、阿里雲E-MapReduce
3、如何在阿里雲E-MapReduce上使用Alluxio

什麼是Alluxio?

Alluxio位於數據驅動框架或應用(例如Apache Spark、Presto、TensorFlow、Apache Flink和Apache Hive等)和各種持久化存儲系統(例如HDFS和阿里雲OSS)之間,使得上層的計算應用可以通過統一的客戶端API和全局命名空間訪問包括HDFS和OSS在內的持久化存儲系統。
具體說來,Alluxio提供一層文件系統的抽象給計算層。這層抽象之上的計算只需要和Alluxio交互來訪問數據;而這層抽象之下可以同時對接多個不同的持久化存儲(比如一個OSS加上一個HDFS部署),而這層抽象本身又是由部署在靠近計算的內存級Alluxio存儲系統來實現。如下圖:

alluxio架構圖.png

Alluxio 通過統一命名空間、多層級緩存及服務器端API轉換等三個關鍵領域的創新結合在一起,統一了數據訪問的方式,為上層計算框架和底層存儲系統構建了橋樑。將數據從存儲層移動到距離數據驅動型應用更近的位置,從而能夠更容易被訪問,同時使得應用程序能夠通過一個公共接口連接到許多存儲系統。
Alluxio項目源自 UC Berkeley 的 AMPLab,在伯克利數據分析棧 (Berkeley Data Analytics Stack, BDAS) 中扮演數據訪問層的角色。 到今天為止,Alluxio 已經在數百家機構的生產中進行了部署,最大部署運行的集群規模超過 1500 個節點。

Alluxio的典型應用場景

1、計算層需要反覆頻繁的訪問遠程(比如在阿里雲或跨機房)的數據;
2、計算層需要同時訪問多個獨立的持久化數據源(比如同時訪問OSS和HDFS中的數據);
3、多個獨立的大數據應用(比如不同的Spark Job)需要高速有效的共享數據。

Alluxio的主要優勢

Alluxio通過簡化應用程序訪問其數據的方式(無論數據是什麼格式或位置),幫助克服從數據中提取信息所面臨的困難。Alluxio 的優勢如下:
1、分佈式緩存,內存速度 I/O:
Alluxio 能夠用作分佈式共享緩存服務,這樣與 Alluxio 通信的計算應用程序可以透明地緩存頻繁訪問的數據(尤其是從遠程位置),以提供內存級 I/O 吞吐率。此外,Alluxio的層次化存儲機制能夠充分利用內存、固態硬盤或者磁盤,降低具有彈性擴張特性的數據驅動型應用的成本開銷。
2、簡化雲存儲和對象存儲接入:
在雲存儲和對象存儲系統上進行文件系統操作(如列出目錄和重命名)會導致性能開銷。當訪問雲存儲中的數據時,應用程序沒有節點級數據本地性或跨應用程序緩存。將 Alluxio 與雲存儲或對象存儲一起部署可以緩解這些問題,這樣將從 Alluxio 中檢索讀取數據,而不是從底層雲存儲或對象存儲中檢索讀取。
3、簡化數據管理:
Alluxio 提供對多數據源的單點訪問。除了連接不同類型的數據源之外,Alluxio 還允許用戶同時連接同一存儲系統的不同版本,如多個版本的 HDFS,並且無需複雜的系統配置和管理。

阿里雲 E-MapReduce

阿里雲E-MapReduce(簡稱EMR),是運行在阿里雲平臺上的一種大數據處理的系統解決方案。EMR構建於雲服務器ECS上,基於開源的Apache Hadoop和Apache Spark,讓您可以方便地使用Hadoop和Spark生態系統中的其他周邊系統分析和處理數據。EMR還可以與阿里雲其他的雲數據存儲系統和數據庫系統(例如,阿里雲OSS和RDS等)進行數據傳輸。E-MapReduce的產品架構如下圖所示。
EMR產品架構圖.png

阿里雲 E-MapReduce連續兩年打破 TPC-DS 紀錄

2020年4月26日,大數據領域權威競賽TPC-DS公佈了最新結果,阿里雲作為全球唯一入選的雲計算公司獲得第一。去年阿里雲 EMR 首次打破該競賽紀錄,成為全球首個通過 TPC 認證的公共雲產品。今年在這一基礎上,EMR 的計算速度提升了 2.2 倍,連續兩年打破了這項大數據領域最難競賽的世界紀錄。
與自建集群相比,E-MapReduce可以為您提供相對方便可控的手段,從各方面管理自己的集群。適用多種使用場景,同時支持Hadoop ecosystem和Spark能夠支持的所有場景。如:批量數據處理、Ad hoc數據分析查詢、海量數據在線服務、流式數據處理等。

阿里雲 E-MapReduce的主要優勢

1、易用性高:您可簡單選擇所需ECS機型與磁盤,並選擇所需的軟件,進行自動化部署;
2、彈性伸縮:藉助EMR,您可以按業務曲線或監控指標情況,手動或自動伸縮託管的集群規模,實現資源利用的最大化;
3、節約成本:支持按量計費與包年包月多種計費模式,藉助彈性能力,調整集群規模,按需付費;
4、深度整合:EMR與阿里雲其它產品(例如,MaxCompute、PAI、TableStore、SLS、阿里雲 HDFS、OSS、MNS及RDS等)進行了深度整合。支持以這些產品作為Hadoop或Spark計算引擎的輸入源或者輸出目的地;
5、安全安靠:EMR整合了阿里雲RAM資源權限管理系統,通過主賬號和子賬號對服務權限進行隔離。

如何在阿里雲 E-MapReduce上使用Alluxio

Alluxio作為阿里雲大數據生態中的重要一環,能夠與阿里雲生態體系的眾多產品深度融合,產生化學反應,提升大數據平臺整體效率。
Alluxio可以對遠端數據源做緩存,比如阿里雲OSS、HDFS等,以及阿里雲其他存儲產品。統一的 namespace,把多個數據源/多個集群,統一掛載到 alluxio:// 名字空間下面,簡化 EMR 各種引擎的訪問。雲上雲下打通,在雲上用 Alluxio 掛載打通對雲下HDFS的訪問。
總之,Alluxio可以為大數據應用提供一個數量級的加速,同時它還提供了通用的數據訪問接口。對於底層存儲系統,Alluxio連接了大數據應用和傳統存儲系統之間的間隔,並且重新定義了一組面向數據使用的工作負載程序。
歡迎遇到計算層的反覆遠程訪問、多個數據源同時訪問、應用需要都高速共享數據及面臨嚴重的計算資源壓力等問題的朋友們,對阿里雲 E-MapReduce Alluxio進行測試,實現對數據價值的快速發掘。
此外,阿里雲數據湖構建(Data Lake Formation,DLF)火熱公測中,全託管、快速幫助用戶構建雲上數據湖服務,這次Alluxio 的引入,助力阿里雲數據湖架構完成最後一塊拼圖,需要了解的朋友們,可以快速聯繫。

歡迎試用

對阿里雲 E-MapReduce 感興趣的朋友可以申請測試,測試加入釘釘群(如下),並@黯滅
7040e85a59d94b16ba58a81a61713246.png

Leave a Reply

Your email address will not be published. Required fields are marked *