數據湖實操講解【 JindoTable 計算加速】第十九講：Spark 對 OSS 上的 Parquet 數據進行查詢加速

By click / 2021-07-23

本期導讀：【JindoTable 計算加速】第十九講

主題：Spark 對 OSS 上的 Parquet 數據進行查詢加速uid + JindoFS 對 OSS 上數據進行訓練加速

講師：流影，阿里巴巴計算平臺事業部 EMR 技術專家

內容框架：

JindoFS 計算加速介紹
使用 JindoFS 計算加速
演示

直播回放鏈接：（19講）

https://developer.aliyun.com/live/247100

一、JindoFS 計算加速介紹

背景介紹：

當前數據湖市場規模正在飛速增長，隨著數據規模的增長，基於高性能的數據湖分析場景也在逐漸增加。當前很多數據湖架構基於對象存儲，相對於本地存儲，其性能受到網絡帶寬和負載機器的影響，存在性能瓶頸和波動，同時因為遠端讀取 OSS 單次 IO 比較慢,在列存等一些隨機讀比較多的場景,性能差距尤其明顯(無法預讀)。在此背景下,穩定且高性能的數據讀取方案已經迫在眉睫。

JindoFS 計算加速：

JindoFS 通過 Native Engine ，能夠加速存儲在 JindoFS / OSS 上面的 ORC / Parquet 文件, 配合 filter pushdown，在 Spark / Hive / Presto 上明顯的提升查詢速度。

JindoFS 計算加速架構：

TPCDS 5T 測試：

TPCDS 5T 規模的 Spark 測試，使用 JindoFS 計算加速方案，平均 query 查詢性能整體上較 Spark + parquet 的方案提升22.9%( GeoMean)，總時間縮短從8158秒縮短到7309秒，下降12%

參考文章：

tpcds 5t 查詢性能報告 https://github.com/aliyun/alibabacloud-jindodata/blob/master/docs/comparisons/jindotable_native_vs_spark_parquet.md

q96 查詢對比：

spark 查詢:

JindoFS 查詢加速 :

結論：下推 filter 之後讀取相同數據量時間縮短近一倍

二、使用 JindoFS 計算加速

Spark 使用 JindoFS 計算加速讀取 Parquet 數據

前提：

已創建 EMR-3.35.0 及後續版本或 EMR-4.9.0 及後續版本，且 Parquet 文件已存放至JindoFS 或 OSS

Spark 使用 JindoFS 計算加速：

添加配置 spark.sql.extensions=com.aliyun.emr.sql.JindoTableExtension

三、演示

演示內容：

Spark 2.4 使用 JindoFS 計算加速
Spark 2.4 任務界面查看計算加速相關信息

參考文章：

計算加速使用文檔 https://help.aliyun.com/document_detail/213329.html?spm=a2c4g.11186623.6.1123.5d04196bvr9MzP

⭐點擊回放鏈接，直接觀看第19講視頻回放，獲取講師實例講解：

https://developer.aliyun.com/live/247100

⭐Github鏈接：

https://github.com/aliyun/alibabacloud-jindofs

不錯過每次直播信息、探討更多數據湖 JindoFS+OSS 相關技術問題，歡迎掃碼加入釘釘交流群！

Leave a Comment Cancel Reply