雲計算

數據湖實操講解【 AI 訓練加速】第十八講:Fluid + JindoFS 對海量小文件的訓練加速

本期導讀 :【AI 訓練加速】第十八講

主題:FFluid + JindoFS 對海量小文件的訓練加速uid + JindoFSOSS 上數據進行訓練加速

講師:辰山,阿里巴巴計算平臺事業部 EMR 技術專家

內容框架:

  • 海量小文件難題
  • Fluid JindoRuntime 小文件優化
  • 使用 JindoRuntime 加速小文件
  • 演示

直播回放鏈接:(18講)

https://developer.aliyun.com/live/247034

一、海量小文件難題

 

AI 訓練場景經常需要處理海量小文件

現狀:

  image.png 

  • RPC 頻繁,NameNode 壓力大
  • 延時高

  image.png

  • 延時高
  • 高頻訪問穩定性

對緩存系統的訴求:

  • 低延時,高 QPS
  • 穩定可靠的訪問性能
  • 能夠支撐海量文件數

二、Fluid JindoRuntime 小文件優化

JindoRuntime:

image.png

高效的元數據緩存:

  • 基於 KV-Store 的元數據組織形式,可支持海量文件數,並且不會佔用過多內存資源
  • 高效的元數據查詢,並且通過熱點緩存進一步加速點查性能
  • 元數據服務(Namespace Service)能夠提供低延時、高 QPS 的訪問性能

image.pngimage.png

  • Fuse 客戶端緩存

高效的數據組織及索引

  • 針對小文件數據塊實現高性能磁盤存儲及索引機制
  • 一致性哈希實現數據塊的分佈式緩存索引,縮短小文件讀取的鏈路

  image.png

三、使用 JindoRuntime 加速小文件

JindoRuntime 加速小文件基本步驟

  • 下載並安裝 Fluidhttps://github.com/aliyun/alibabacloud-jindodata/blob/master/docs/jindo_fluid/jindo_fluid_jindofs_hdfs_introduce.md
  • 創建 Dataset
  • 創建 JindoRuntime
  • 緩存預加載 DataLoad
  • 執行 AI 訓練作業

  image.png

小文件加速效果

  • 參考文章:《速度提升 18倍!微博海量深度學習模型訓練效率躍升的祕密》 https://www.infoq.cn/article/FClx4Cco6b1jomi6UZSy

image.png

相比於 HDFS 接口

  • 1機 4 卡可以得到5 倍的加速
  • 2機 8 卡可以得到9 倍的加速
  • 3機 12 卡可以得到18 倍的加速

image.png

  • 訓練總時長由原來的389小時(16 天)縮短到了16 小時

四、演示

Fluid JindoRuntime 使用

環境要求:

  • Kubernetes version > 1.14, 支持CSI
  • Golang 1.12+
  • Helm 3
  • Fluid 0.6.0


參考文檔:https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindo_fluid/jindo_fluid_overview.md

ISSUE:https://github.com/aliyun/alibabacloud-jindofs/issues

image.png

演示:對 HDFS 上海量小文件進行訪問加速

參考文檔:https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindo_fluid/common/jindo_fluid_quickStart.md

image.png

image.png

相關文檔鏈接:

  • Fluid  JindoRuntime 使用文檔

https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindo_fluid/jindo_fluid_overview.md

  • ImageNet 數據集加速測試

https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindo_fluid/jindo_fluid_resnet50_example.md

  • InsightFace 數據集加速測試

https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindo_fluid/jindo_fluid_cache_performance_report.md



點擊回放鏈接,直接觀看第18講視頻回放,獲取講師實例講解:

   https://developer.aliyun.com/live/247034




Github鏈接:

https://github.com/aliyun/alibabacloud-jindofs

不錯過每次直播信息、探討更多數據湖 JindoFS+OSS 相關技術問題,歡迎掃碼加入釘釘交流群!

69c0a02cc68742fca5d49d92413dc67a.png

Leave a Reply

Your email address will not be published. Required fields are marked *