本期導讀 :【數據遷移】第三講
主題:如何將 HDFS 海量文件歸檔到 OSS
講師:辰石,阿里巴巴計算平臺事業部 EMR 技術專家
內容框架:
- 背景介紹
- 具體功能詳解
- 使用實例
直播回放鏈接:(3/4講)
https://developer.aliyun.com/live/246750
背景簡述
HDFS 數據遷移
- 用戶需要將數據存儲在 IDC 機房的 HDFS 的集群內。
- HDFS 的集群的空間依賴本地磁盤空間,本地磁盤空間有限,但是業務數據不斷增長。
- 計算存儲分離雖然可以不用擔心存儲容量,但是對象存儲相關性能可能不及本地 HDFS 性能。
- 業務數據的時效性,業務數據隨時間遷移數據價值也會相對降低,從而導致數據的存儲成本上升。
HDFS 數據存儲成本
考慮到實際使用 HDFS 會有3副本以及一定的預留空間,我們以 HDFS 3 副本、80% 使用率進行成本計算, 參考 https://www.aliyun.com/price/product#/ecs/detail
HDFS / OSS 存儲成本對比
OSS 歸檔數據的存儲成本只有 HDFS 數據存儲成本的 20% , OSS冷歸檔的存儲不到 HDFS 數據存儲的 10% 。
具體詳解
HDFS 數據歸檔
Jindo DistCp 工具
- 全量支持 HDFS / OSS / S3 之間的的數據拷貝場景
- 重點優化 HDFS / OSS 數據拷貝場景,支持 No-Rename 拷貝
- 支持 DistCp 過程數據 CheckSum 校驗
⭐具體可參考 Github:
https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/tools/table_moveto.md
通過 DistCp 工具選項 —— policy 指定數據存儲類型
/ | 選項說明 |
---|---|
標準(standard) | 數據遷移到OSS標準存儲,可讀 |
低頻(ia) | 數據遷移到OSS低頻存儲,可讀 |
歸檔(archive) | 數據遷移到OSS歸檔存儲,不可直接讀取 |
冷歸檔(coldArchive) | 數據遷移到OSS冷歸檔存儲,不可直接讀取 |
HDFS 數據遷移命令
- 寫入低頻數據
hadoop jar jindo-distcp-3.5.0.jar --src /data --dest oss://destBucket/ --ossKey yourkey -- ossSecret yoursecret --ossEndPoint oss-cn-xxx.aliyuncs.com --policy ia --parallelism 10
- 寫入歸檔數據
hadoop jar jindo-distcp-3.5.0.jar --src /data --dest oss://destBucket/ --ossKey yourkey --ossSecret yoursecret --ossEndPoint oss-cn-xxx.aliyuncs.com --policy archive --parallelism 10
- 寫入冷歸檔數據
hadoop jar jindo-distcp-3.5.0.jar --src /data --dest oss://destBucket/ --ossKey yourkey --ossSecret yoursecret --ossEndPoint oss-cn-xxx.aliyuncs.com --policy coldArchive --parallelism 10
HDFS 命令查看數據類型
- HDFS LS2 擴展命令
hdfs –fs –ls2 oss://xxxxx/xxxxx
- 可參考詳細介紹鏈接
演示操作
- 準備測試腳本,包含 DistCp 到OSS 各種存儲類型的文件,測試文件大小為10M
- 執行測試腳本進行數據拷貝
- 查看 OSS 數據的存儲類型
直接觀看視頻回放,獲取實例講解~https://developer.aliyun.com/live/246750
⭐Github鏈接:
https://github.com/aliyun/alibabacloud-jindofs
不錯過每次直播信息、探討更多數據湖 JindoFS+OSS 相關技術問題,歡迎掃碼加入釘釘交流群!