雲計算

數據湖實操講解【 JindoTable 計算加速】第十九講:Spark 對 OSS 上的 Parquet 數據進行查詢加速

本期導讀 :【JindoTable 計算加速】第十九講

主題:Spark 對 OSS 上的 Parquet 數據進行查詢加速uid + JindoFSOSS 上數據進行訓練加速

講師:流影,阿里巴巴計算平臺事業部 EMR 技術專家

內容框架:

  • JindoFS 計算加速介紹
  • 使用 JindoFS 計算加速
  • 演示

直播回放鏈接:(19講)

https://developer.aliyun.com/live/247100

一、JindoFS 計算加速介紹

背景介紹:

當前數據湖市場規模正在飛速增長,隨著數據規模的增長,基於高性能的數據湖分析場景也在逐漸增加。當前很多數據湖架構基於對象存儲,相對於本地存儲,其性能受到網絡帶寬和負載機器的影響,存在性能瓶頸和波動,同時因為遠端讀取 OSS 單次 IO 比較慢,在列存等一些隨機讀比較多的場景,性能差距尤其明顯(無法預讀)。在此背景下,穩定且高性能的數據讀取方案已經迫在眉睫。

JindoFS 計算加速:

JindoFS 通過 Native Engine 能夠加速存儲在 JindoFS / OSS 上面的 ORC / Parquet 文件配合 filter pushdown在 Spark / Hive / Presto 上明顯的提升查詢速度。

JindoFS 計算加速架構:

image.png

TPCDS 5T 測試:

image.png

TPCDS 5T 規模的 Spark 測試,使用 JindoFS 計算加速方案,平均 query 查詢性能整體上較 Spark + parquet 的方案提升22.9%( GeoMean),總時間縮短從8158秒縮短到7309秒,下降12%


參考文章:

tpcds 5t 查詢性能報告 https://github.com/aliyun/alibabacloud-jindodata/blob/master/docs/comparisons/jindotable_native_vs_spark_parquet.md


q96 查詢對比:

spark 查詢:

image.png

JindoFS 查詢加速 :

image.png

結論:下推 filter 之後讀取相同數據量時間縮短近一倍

二、使用 JindoFS 計算加速


Spark 使用 JindoFS 計算加速讀取 Parquet 數據

前提:

已創建 EMR-3.35.0 及後續版本或 EMR-4.9.0 及後續版本,且 Parquet 文件已存放至JindoFS OSS

Spark 使用 JindoFS 計算加速:

添加配置 spark.sql.extensions=com.aliyun.emr.sql.JindoTableExtension

三、演示

演示內容:

  • Spark 2.4 使用 JindoFS 計算加速      
  • Spark 2.4 任務界面查看計算加速相關信息



參考文章:

計算加速使用文檔 https://help.aliyun.com/document_detail/213329.html?spm=a2c4g.11186623.6.1123.5d04196bvr9MzP




點擊回放鏈接,直接觀看第19講視頻回放,獲取講師實例講解:

   https://developer.aliyun.com/live/247100




Github鏈接:

https://github.com/aliyun/alibabacloud-jindofs

不錯過每次直播信息、探討更多數據湖 JindoFS+OSS 相關技術問題,歡迎掃碼加入釘釘交流群!

69c0a02cc68742fca5d49d92413dc67a.png

Leave a Reply

Your email address will not be published. Required fields are marked *