本期導讀 :【AI 訓練加速】第十七講
主題:FFluid + JindoFS 對 HDFS 上的數據進行訓練加速luid + JindoFS 對 OSS 上數據進行訓練加速
講師:辰山,阿里巴巴計算平臺事業部 EMR 技術專家
內容框架:
- 什麼是 Fluid + JindoFS (JindoRuntime)
- 為什麼使用 JindoRuntime 加速 HDFS
- 如何使用 JindoRuntime
- 演示
直播回放鏈接:(17講)
https://developer.aliyun.com/live/247034
一、什麼是 Fluid + JindoFS (JindoRuntime)
Fluid基礎介紹
CNCF Fluid 是一個開源的 Kubernetes 原生的分佈式數據集編排和加速引擎,主要服務於雲原生場景下的數據密集型應用,例如大數據應用、AI應用等。
參考網址:https://github.com/fluid-cloudnative/fluid
Fluid 功能概念
Fluid 不是全存儲加速和管理,而是應用使用的數據集加速和管理
- Dataset: 數據集是邏輯上相關的一組數據的集合,一致的文件特性,會被同一運算引擎使用。
- Runtime: 實現數據集安全性,版本管理和數據加速等能力的執行引擎的接口,定義了一系列生命週期的方法。
- JindoRuntime: 內核基於 JindoFS ,是支撐 Dataset 數據管理和緩存的執行引擎高效實現。
Fluid JindoRuntime
背景:雲原生環境中使用 JindoFS 緩存加速引擎並進行緩存數據集編排和應用編排
二、為什麼使用 JindoRuntime 加速 HDFS
HDFS 存儲與 AI 訓練
HDFS 用於 AI 訓練場景面臨的問題
- 計算存儲分離,數據讀取性能較差,無法滿足 AI 訓練作業的 IO 性能
- 很多深度學習訓練框架並不適配原生 HDFS 接口,大大增加了開發難度
- HDFS 集群壓力大,甚至存在穩定性問題
Fluid JindoRuntime 實現 HDFS 訪問加速
JindoRuntime 功能支持
- Master 支持 Raft 高可用
- 支持數據親和性調度(nodeAffinity),選擇合適的緩存節點
- 支持數據預加載 DataLoad CRD
- 支持指定 Fuse 用戶訪問 HDFS
參考網址:https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindo_fluid/jindo_fluid_overview.md
三、如何使用 JindoRuntime
JindoRuntime 加速 HDFS 基本步驟
- 下載並安裝 Fluid:https://github.com/aliyun/alibabacloud-jindodata/blob/master/docs/jindo_fluid/jindo_fluid_jindofs_hdfs_introduce.md
- 創建 Dataset
- 創建 JindoRuntime
- 緩存預加載 DataLoad
- 執行 AI 訓練作業
四、演示
Fluid JindoRuntime 使用
環境要求:
- Kubernetes version > 1.14, 支持CSI
- Golang 1.12+
- Helm 3
- Fluid 0.6.0
參考文檔:https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindo_fluid/jindo_fluid_overview.md
ISSUE:https://github.com/aliyun/alibabacloud-jindofs/issues
演示:對 HDFS 上數據進行訪問加速
參考文檔:https://github.com/aliyun/alibabacloud-jindodata/blob/master/docs/jindo_fluid/jindo_fluid_jindofs_hdfs_introduce.md
相關文檔鏈接:
- Fluid JindoRuntime 使用文檔
https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindo_fluid/jindo_fluid_overview.md
- 擁抱雲原生,Fluid結合JindoFS:加速 HDFS使用指南
https://github.com/aliyun/alibabacloud-jindodata/blob/master/docs/jindo_fluid/jindo_fluid_jindofs_hdfs_introduce.md
- ImageNet 數據集加速測試
- InsightFace 數據集加速測試
⭐點擊回放鏈接,直接觀看第17講視頻回放,獲取講師實例講解:
https://developer.aliyun.com/live/247034
⭐Github鏈接:
https://github.com/aliyun/alibabacloud-jindofs
不錯過每次直播信息、探討更多數據湖 JindoFS+OSS 相關技術問題,歡迎掃碼加入釘釘交流群!