雲計算

阿里雲EMR計算速度提升2.2倍 連續兩年打破大數據領域最難競賽世界紀錄!

4月26日,大數據領域權威競賽TPC-DS公佈了最新結果,阿里雲作為全球唯一入選的雲計算公司獲得第一。值得一提的是,去年阿里雲EMR首次打破該競賽紀錄,成為全球首個通過TPC認證的公共雲產品。今年在這一基礎上,EMR的計算速度提升了2.2倍,性能指標(QphDS)首次超過一千萬分,是友商的商業大數據產品3.5倍。同時,E-MapReduce繼續保持數據處理能力的規模優勢,100TB的數據規模是競爭對手產品最大處理能力的10倍。
image

本次測評全記錄參見TPC官網:http://www.tpc.org/tpcds/results/tpcds_perf_results5.asp?resulttype=all


E-MapReduce再次打破世界記錄

TPC-DS是第一個基於SQL的大數據系統基準測試標準,該標準創立十幾年以來,世界上只有兩家公司的數據庫軟件通過了TPC-DS的官方認證,阿里雲是其中一家。TPC-DS以其SQL的複雜度、流程的完善度和極大的數據量而聞名,被稱為當前業界最難完成的大數據測試標準。

以數據量為例,這次EMR使用的10TB測試數據集包含了超過13億商品庫存,500億筆交易以及6千萬用戶的模擬數據,大部分查詢請求需要同時處理這份海量數據,並且需要在十幾秒或一分鐘之內返回。

E-MapReduce(阿里雲EMR)

作為運行在阿里雲平臺上的一種大數據處理的系統解決方案,阿里雲E-MapReduce產品構建於阿里云云服務器 ECS 上,基於開源的 Apache Hadoop 和 Apache Spark,讓用戶可以方便地使用 Hadoop 和 Spark 生態系統中的其他周邊系統(如 Apache Hive、Apache Kafka、Apache HBase 等)來分析和處理自己的數據。不僅如此,E-MapReduce 還可以方便的與阿里雲其他的雲數據存儲系統和數據庫系統(如阿里雲 OSS、阿里雲 Log Service等)進行數據傳輸。目前,EMR已服務新零售、互聯網、教育、人工智能及政務等行業企業和機構,以國際知名營銷服務公司Yeahmobi為例,該公司通過使用阿里雲EMR構建大數據計算平臺,實現了統一存儲、統一分析,整體成本下降超30%。
官網:https://www.aliyun.com/product/emapreduce

emr_4_27

重磅引擎Jindo Spark

Jindo Spark是阿里雲智能E-MapReduce團隊在開源的Apache Spark基礎上自主研發的雲原生分佈式計算和存儲引擎,已經在近千E-MapReduce客戶中大規模部署使用。Jindo Spark在開源版本基礎上做了大量優化和擴展,深度集成和連接了眾多阿里雲基礎服務。

Jindo Spark和開源的Apache Spark相比,除了保持接口的兼容性,在功能和性能上都有較大提升。以這次TPC-DS 10TB基準測試為例,Jindo Spark可以跑通所有測試流程,而Apache Spark暫時還不支持數據更新等流程,並且在數據查詢測試中,部分查詢操作無法正常得到結果(99個SQL中的2個)。在查詢性能上Jindo Spark也有較大的優勢,Apache Spark的97個查詢的總耗時是JindoSpark的6.1倍,Jindo Spark在部分查詢(比如query67和query78)的性能提升超過100倍。EMR 4.0版本中Jindo引擎在性能和功能上的亮點有:

1.Jindo Spark支持Native Runtime 計算引擎

Jindo Spark將開源Spark SQL中最核心的全階段Java代碼生成框架(Whole Stage Code Generation)升級為Native代碼生成框架,引入了Weld-IR技術極大的提升了生成代碼的執行效率,並支持投機性編譯和全局代碼緩存。Jindo Spark的Native Runtime計算引擎分析了高頻使用的SQL算子,部分算子實現了Native優化,比如高性能的SortMergeJoin和PartitionBy算子對最耗時Shuffle階段性能提升效果明顯。

同時,Jindo Spark改進了Spark SQL Catalyst Optimizer,實現了基於CTE 和 PK/FK的優化,支持動態Runtime Filter,TPC-DS的部分SQL實現了數十倍的性能提升。

2.數據湖解決方案重磅升級

阿里雲EMR和OSS為客戶提供一站式數據湖解決方案,提供全新的計算存儲相分離方案最新的 JindoFS 同時支持 Cache 和 Block 模式,全面支持 EMR 各種計算引擎和 HBase數據庫。

在 Block 模式上,JindoFS 組合利用本地高性能存儲和 OSS 海量可靠低成本存儲,在性能上接近本地存儲,在容量,彈性和成本上接近 OSS 存儲。JindoFS 透明支持數據在本地存儲和 OSS 存儲之間冷熱遷移,EMR 計算不需要顯式遷移和維護元數據位置,不需要顯式掛載。在 Cache 模式上,JindoFS 保持 OSS 的原有訪問方式和兼容,支持對元數據和文件數據的可選性緩存加速。無論哪種模式,JindoFS 全面支持 EMR 各種計算和場景,包括 MapReduce,Spark,Hive,Flink,Impala,Presto,Kafka,甚至 HBase。JindoFS 支持非 EMR 集群外部環境訪問,支持上下游打通。

3.可以玩轉各種實時數據流的搭建:

  • 支持Kafka/Kudu/Druid/HBase等多種存儲引擎的集群類型,並且與Jindo Spark深度集成,滿足實時數據湖的各種業務場景需求
  • 支持Spark Streaming SQL,提供實時ETL能力,降低開發使用門檻
  • 支持MySQL Binlog CDC數據實時同步到數據湖,用戶可以使用模板快速構建數據流,並在數據湖裡實現實時數據查詢(支持Spark SQL、Presto、Hive等引擎)

4.Spark Cube

Spark Cube 支持將任意表或視圖表示的關係型數據持久化到存儲上,可實現類似傳統數據倉庫物化視圖和Cube的功能。Cache 數據的存儲支持各種數據源與數據格式,以及分區,分桶,排序,文件索引等數據組織方式,Jindo Spark 自動選擇合適的 cache 重寫用戶查詢的執行計劃以加速查詢執行速度。通過數據的預組織和預計算,Spark Cube能夠支持超大規模數據亞秒級響應的交互式分析需求,適用於多維分析,BI 報表,Dashboard 等應用場景。

Spark Cube已經開源,歡迎使用和提供建議 https://github.com/alibaba/SparkCube

未來

阿里雲計算平臺事業群總裁賈揚清表示,“阿里雲積極擁抱開源技術的同時,也在不斷投入自研創新技術,此次阿里雲連續兩年刷新世界紀錄,是多年自研技術的必然成果,阿里雲希望用這些創新技術服務更多的企業。

未來的 E-MapReduce 團隊還會繼續努力,完善 Jindo 核心引擎,在性能、功能和擴展性上更進一步,挑戰更大規模的數據集,滿足更廣泛的雲上大數據客戶需求,讓 E-MapReduce 成為阿里雲智能的標杆性產品。更多對Jindo Spark的性能優化和功能增強工作還在進行中,對開源大數據和數據庫OLAP場景感興趣的同學可加入釘釘群交流
https://qr.dingtalk.com/action/joingroup?code=v1,k1,cNBcqHn4TvG0iHpN3cSc1B86D1831SGMdvGu7PW+sm4=&_dt_no_comment=1&origin=11


背景信息:

事務處理性能委員會( Transaction Processing Performance Council )TPC,是目前最知名的數據管理系統評測基準標準化組織。其制定商務應用基準程序(Benchmark)的標準規範、性能和價格度量,發佈了多款數據庫評測基準,在業界得到了廣泛應用。

----

相關閱讀:
阿里雲大數據+AI技術沙龍上海站回顧 | ​揭祕TPC-DS 榜單第一名背後的強大引擎
JindoFS: 雲上大數據的高性能數據湖存儲方案

EMR打破世界紀錄宣傳海報-04.png
海報jindofs.png

Leave a Reply

Your email address will not be published. Required fields are marked *