本期導讀 :【AI 訓練加速】第十八講
主題:FFluid + JindoFS 對海量小文件的訓練加速uid + JindoFS 對 OSS 上數據進行訓練加速
講師:辰山,阿里巴巴計算平臺事業部 EMR 技術專家
內容框架:
- 海量小文件難題
- Fluid JindoRuntime 小文件優化
- 使用 JindoRuntime 加速小文件
- 演示
直播回放鏈接:(18講)
https://developer.aliyun.com/live/247034
一、海量小文件難題
AI 訓練場景經常需要處理海量小文件
現狀:
- RPC 頻繁,NameNode 壓力大
- 延時高
- 延時高
- 高頻訪問穩定性
對緩存系統的訴求:
- 低延時,高 QPS
- 穩定可靠的訪問性能
- 能夠支撐海量文件數
二、Fluid JindoRuntime 小文件優化
JindoRuntime:
高效的元數據緩存:
- 基於 KV-Store 的元數據組織形式,可支持海量文件數,並且不會佔用過多內存資源
- 高效的元數據查詢,並且通過熱點緩存進一步加速點查性能
- 元數據服務(Namespace Service)能夠提供低延時、高 QPS 的訪問性能
- Fuse 客戶端緩存
高效的數據組織及索引
- 針對小文件數據塊實現高性能磁盤存儲及索引機制
- 一致性哈希實現數據塊的分佈式緩存索引,縮短小文件讀取的鏈路
三、使用 JindoRuntime 加速小文件
JindoRuntime 加速小文件基本步驟
- 下載並安裝 Fluid:https://github.com/aliyun/alibabacloud-jindodata/blob/master/docs/jindo_fluid/jindo_fluid_jindofs_hdfs_introduce.md
- 創建 Dataset
- 創建 JindoRuntime
- 緩存預加載 DataLoad
- 執行 AI 訓練作業
小文件加速效果
- 參考文章:《速度提升 18倍!微博海量深度學習模型訓練效率躍升的祕密》 https://www.infoq.cn/article/FClx4Cco6b1jomi6UZSy
相比於 HDFS 接口
- 1機 4 卡可以得到5 倍的加速
- 2機 8 卡可以得到9 倍的加速
- 3機 12 卡可以得到18 倍的加速
- 訓練總時長由原來的389小時(16 天)縮短到了16 小時
四、演示
Fluid JindoRuntime 使用
環境要求:
- Kubernetes version > 1.14, 支持CSI
- Golang 1.12+
- Helm 3
- Fluid 0.6.0
參考文檔:https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindo_fluid/jindo_fluid_overview.md
ISSUE:https://github.com/aliyun/alibabacloud-jindofs/issues
演示:對 HDFS 上海量小文件進行訪問加速
相關文檔鏈接:
- Fluid JindoRuntime 使用文檔
https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindo_fluid/jindo_fluid_overview.md
- ImageNet 數據集加速測試
- InsightFace 數據集加速測試
⭐點擊回放鏈接,直接觀看第18講視頻回放,獲取講師實例講解:
https://developer.aliyun.com/live/247034
⭐Github鏈接:
https://github.com/aliyun/alibabacloud-jindofs
不錯過每次直播信息、探討更多數據湖 JindoFS+OSS 相關技術問題,歡迎掃碼加入釘釘交流群!