本期導讀 :【JindoTable 計算加速】第十九講
主題:Spark 對 OSS 上的 Parquet 數據進行查詢加速uid + JindoFS 對 OSS 上數據進行訓練加速
講師:流影,阿里巴巴計算平臺事業部 EMR 技術專家
內容框架:
- JindoFS 計算加速介紹
- 使用 JindoFS 計算加速
- 演示
直播回放鏈接:(19講)
https://developer.aliyun.com/live/247100
一、JindoFS 計算加速介紹
背景介紹:
當前數據湖市場規模正在飛速增長,隨著數據規模的增長,基於高性能的數據湖分析場景也在逐漸增加。當前很多數據湖架構基於對象存儲,相對於本地存儲,其性能受到網絡帶寬和負載機器的影響,存在性能瓶頸和波動,同時因為遠端讀取 OSS 單次 IO 比較慢,在列存等一些隨機讀比較多的場景,性能差距尤其明顯(無法預讀)。在此背景下,穩定且高性能的數據讀取方案已經迫在眉睫。
JindoFS 計算加速:
JindoFS 通過 Native Engine ,能夠加速存儲在 JindoFS / OSS 上面的 ORC / Parquet 文件, 配合 filter pushdown,在 Spark / Hive / Presto 上明顯的提升查詢速度。
JindoFS 計算加速架構:
TPCDS 5T 測試:
TPCDS 5T 規模的 Spark 測試,使用 JindoFS 計算加速方案,平均 query 查詢性能整體上較 Spark + parquet 的方案提升22.9%( GeoMean),總時間縮短從8158秒縮短到7309秒,下降12%
參考文章:
tpcds 5t 查詢性能報告 https://github.com/aliyun/alibabacloud-jindodata/blob/master/docs/comparisons/jindotable_native_vs_spark_parquet.md
q96 查詢對比:
spark 查詢:
JindoFS 查詢加速 :
結論:下推 filter 之後讀取相同數據量時間縮短近一倍
二、使用 JindoFS 計算加速
Spark 使用 JindoFS 計算加速讀取 Parquet 數據
前提:
已創建 EMR-3.35.0 及後續版本或 EMR-4.9.0 及後續版本,且 Parquet 文件已存放至JindoFS 或 OSS
Spark 使用 JindoFS 計算加速:
添加配置 spark.sql.extensions=com.aliyun.emr.sql.JindoTableExtension
三、演示
演示內容:
- Spark 2.4 使用 JindoFS 計算加速
- Spark 2.4 任務界面查看計算加速相關信息
參考文章:
計算加速使用文檔 https://help.aliyun.com/document_detail/213329.html?spm=a2c4g.11186623.6.1123.5d04196bvr9MzP
⭐點擊回放鏈接,直接觀看第19講視頻回放,獲取講師實例講解:
https://developer.aliyun.com/live/247100
⭐Github鏈接:
https://github.com/aliyun/alibabacloud-jindofs
不錯過每次直播信息、探討更多數據湖 JindoFS+OSS 相關技術問題,歡迎掃碼加入釘釘交流群!