開發與維運

數據湖實操講解【OSS 訪問加速】第十一講:打開 OSS 多版本-合規和分析兩不誤

本期導讀 :【OSS 訪問加速】第十一講

主題:打開 OSS 多版本-合規和分析兩不誤

講師:辰石,阿里巴巴計算平臺事業部 EMR 技術專家

內容框架:

  • 背景介紹
  • 主要功能
  • 具體演示

直播回放鏈接:(11講)

https://developer.aliyun.com/live/246915

一、背景介紹

阿里雲對象存儲 OSS

  • 一種海量、安全、低成本、高可靠的雲存儲服務
  • 適合存放任意類型的文件
  • 提供容量和處理能力彈性擴展
  • 提供多種存儲類型供選擇
  • 數據設計持久性不低於99.9999999999%(12個9),服務可用性(或業務連續性)不低於99.995%


二、主要功能

OSS 支持功能

  • 數據的上傳以及下載
  • OSS 對象生命週期的管理
  • 同城/異地的數據容災
  • OSS 對象數據保留合規
  • 數據的加密解密
  • 數據的多版本管理

參考網址:

https://help.aliyun.com/?spm=a2c4g.11174283.6.538.70a37da2T4gFyT

OSS 對象數據多版本管理

功能介紹

  • 單份數據在 OSS 上存在多個版本

使用場景

  • 數據誤刪除:當前 OSS 不提供回收站,如果要恢復已刪除的數據可以使用 OSS 多版本
  • 文件被覆蓋:對於網盤、在線協作類產品,文件會被頻繁修改,針對文件的編輯會產生大量的臨時版本。您可以使用版本控制功能找回某個時間點的版本

OSS 對象數據多版本狀態

未開啟狀態

  • 默認情況下 OSS 版本狀態為未開啟的狀態,一旦開啟,無法退回到未開啟狀態

開啟狀態

  • 當 OSS 版本控制處於開啟狀態,OSS 將為新上傳的對象生成全局唯一的版本 ID

暫停狀態

  • OSS 將為新上傳的 Object 生成特殊字符串為“null”的版本 ID

開啟/暫停 OSS 多版本

1.png

使用注意事項

功能互斥

  • 同一 Bucket 中,版本控制與合規保留策略或鏡像回源無法同時配置
  • 如果 Bucket 已開啟版本控制,上傳文件時附加的覆蓋同名文件請求頭 x-oss-forbid-overwrite 將不生效


使用注意事項

  • 開啟多版本本身不會產生任何費用,但是由於開啟多版本,同一對象會存在多個版本的歷史數據,會增加數據的存儲成本
  • OSS 多版本歷史版本過多可能導致 List 過慢的問題,建議配置生命週期定期清理

查看對象的多版本

控制檯查看

2.png

Ossutil64 命令行查看

3.png

JindoFS OSS SDK 的優化

存在問題

  • 由於 Hive/Spark 任務在任務執行過程中會產生臨時數據,在任務執行成功後這些臨時數據會被刪除,因此會產生很多歷史版本數據,導致後續任務 List 過慢,後續任務性能會受到影響。


JindoFS OSS SDK 優化

  • J​indoFS 對於這種情況存在優化, 對於 committer 產生的臨時數據的歷史版本信息可以通過設置 fs.oss.committer.magic.clean.versions.enabled 為 true 可以清理臨時數據歷史版本。

三、實例演示

點擊回放鏈接,直接觀看第11講視頻回放,獲取講師實例講解:

https://developer.aliyun.com/live/246915


Github鏈接:

https://github.com/aliyun/alibabacloud-jindofs

不錯過每次直播信息、探討更多數據湖 JindoFS+OSS 相關技術問題,歡迎掃碼加入釘釘交流群!

4.png

Leave a Reply

Your email address will not be published. Required fields are marked *