雲計算

數據湖實操講解【數據遷移】第三講:如何將 HDFS 海量文件歸檔到OSS

本期導讀 :【數據遷移】第三講

主題:如何將 HDFS 海量文件歸檔到 OSS
講師:辰石,阿里巴巴計算平臺事業部 EMR 技術專家
內容框架:
  • 背景介紹
  • 具體功能詳解
  • 使用實例
直播回放鏈接:(3/4講)

https://developer.aliyun.com/live/246750

背景簡述

640.png

HDFS 數據遷移

  • 用戶需要將數據存儲在 IDC 機房的 HDFS 的集群內。
  • HDFS 的集群的空間依賴本地磁盤空間,本地磁盤空間有限,但是業務數據不斷增長。
  • 計算存儲分離雖然可以不用擔心存儲容量,但是對象存儲相關性能可能不及本地 HDFS 性能。
  • 業務數據的時效性,業務數據隨時間遷移數據價值也會相對降低,從而導致數據的存儲成本上升。

HDFS 數據存儲成本

640 (1).png
考慮到實際使用 HDFS 會有3副本以及一定的預留空間,我們以 HDFS 3 副本、80% 使用率進行成本計算, 參考 https://www.aliyun.com/price/product#/ecs/detail

HDFS / OSS 存儲成本對比

640 (2).png
OSS 歸檔數據的存儲成本只有 HDFS 數據存儲成本的 20% , OSS冷歸檔的存儲不到 HDFS 數據存儲的 10%

具體詳解

HDFS 數據歸檔

Jindo DistCp 工具

  • 全量支持 HDFS / OSS / S3 之間的的數據拷貝場景
  • 重點優化 HDFS / OSS 數據拷貝場景,支持 No-Rename 拷貝
  • 支持 DistCp 過程數據 CheckSum 校驗

⭐具體可參考 Github:
https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/tools/table_moveto.md

通過 DistCp 工具選項 —— policy 指定數據存儲類型

/ 選項說明
標準(standard) 數據遷移到OSS標準存儲,可讀
低頻(ia) 數據遷移到OSS低頻存儲,可讀
歸檔(archive) 數據遷移到OSS歸檔存儲,不可直接讀取
冷歸檔(coldArchive) 數據遷移到OSS冷歸檔存儲,不可直接讀取

HDFS 數據遷移命令

  • 寫入低頻數據

hadoop jar jindo-distcp-3.5.0.jar --src /data --dest oss://destBucket/ --ossKey yourkey -- ossSecret yoursecret --ossEndPoint oss-cn-xxx.aliyuncs.com --policy ia --parallelism 10

  • 寫入歸檔數據

hadoop jar jindo-distcp-3.5.0.jar --src /data --dest oss://destBucket/ --ossKey yourkey --ossSecret yoursecret --ossEndPoint oss-cn-xxx.aliyuncs.com --policy archive --parallelism 10

  • 寫入冷歸檔數據

hadoop jar jindo-distcp-3.5.0.jar --src /data --dest oss://destBucket/ --ossKey yourkey --ossSecret yoursecret --ossEndPoint oss-cn-xxx.aliyuncs.com --policy coldArchive --parallelism 10

HDFS 命令查看數據類型

  • HDFS LS2 擴展命令

hdfs –fs –ls2 oss://xxxxx/xxxxx

  • 可參考詳細介紹鏈接

https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindo_distcp/jindo_distcp_hdfsToOss_pre.md

演示操作

  • 準備測試腳本,包含 DistCp 到OSS 各種存儲類型的文件,測試文件大小為10M
  • 執行測試腳本進行數據拷貝
  • 查看 OSS 數據的存儲類型

640 (3).png

直接觀看視頻回放,獲取實例講解~https://developer.aliyun.com/live/246750


⭐Github鏈接:
https://github.com/aliyun/alibabacloud-jindofs

不錯過每次直播信息、探討更多數據湖 JindoFS+OSS 相關技術問題,歡迎掃碼加入釘釘交流群!
新建項目 (6).jpg

Leave a Reply

Your email address will not be published. Required fields are marked *