雲計算

對象存儲和新型分佈式文件系統 – 填補Hadoop存儲的空白

背景

Hadoop分佈式文件系統(HDFS)從Hadoop出現到現在已有了10多個年頭。HDFS的出現和成熟為企業提供了廉價的海量數據存儲方案,大數據存儲不再是“王謝堂前燕”,而真正地“飛入”了各個公司。但是10多年的時間,IT軟硬件架構、企業部署已經發生了翻天覆地的變化,在這些新的變革下,HDFS露出了一定的頹勢。但是雲上對象存儲是唯一的選擇嗎?面向on-premise,雲環境以及混合雲環境,在這新舊存儲架構交替之際,數據存儲會如何發展呢,如何填補Hadoop存儲留下的空白?

本文為翻譯文章,翻譯自datanami的文章 Object and Scale-Out File Systems Fill Hadoop Storage Void[1].

前言

快速增長的數據量以及變化的數據處理方式對於現有的、已經建立起來的大數據存儲架構產生了一定的影響。在原先的方案中,一個組織想要存儲PB級的弱結構化數據,他們往往首先會想到的是on-premise數據湖架構。但是現在,他們會更多地去考慮多雲和混合雲架構下的可擴展文件系統或是對象存儲,這會帶來更多的靈活性。

自從Hadoop的光環漸漸褪去後,許多企業一直尋找其他方案來存儲半結構化和非結構化數據,這些數據佔據了氾濫的大數據中的絕大部分。這些企業希望將這些數據應用到各個場景中,其中最重要的是訓練機器學習模型以使決策自動化。

儘管宣告Hadoop的死亡還為時過早[2],但是顯然HDFS不再存儲企業的絕大部分數據。Hadoop,就像所有之前出現的快速增長技術那樣,隨著人們對於其功能的重新評估,對它的期望已經從頂峰逐漸下降。Cloudera,現如今唯一的Hadoop發行者,已經脫離Hadoop一段時間了,現在正著眼於幫助客戶以混合雲的方式存儲和處理數據方式。

鑑於大數據領域現階段的動盪,顯然,現今的趨勢正在尋找一種替代的存儲方式。在這之中,對象存儲正在逐步蠶食Hadoop所佔的領地。

對象存儲

基於雲的對象存儲系統是當今的真正贏家,尤其是AWS[3]的S3,它已成為當今對象系統事實上的標準接口。每個銷售對象存儲的軟件公司和大多數公有云供應商都為其對象存儲提供了與S3兼容的API ,當然在這其中Microsoft Azure[4]及ADLS是個例外。

儘管公有云迅速增長,但企業仍然不願將所有數據(雞蛋)存儲在雲(一個籃子)上。這確實是一個難題,因為S3本身並沒有on premise部署。

這樣的需求催生了新興的,基於混合雲架構的第三方對象存儲的增長,包括Red Hat[5]的開源方案,例如來自SwiftStack[6]的Swift和OpenStack[7]的Ceph,以及Minio[8]對象存儲,還有一些閉源方案,如Scality[9]的Ring,Cloudian[10]的HyperStore,Dell EMC[11]的Isilon和Nutanix[12]的Objects。

對象存儲,理論上沒有存儲上限,它實質上是大規模的鍵值存儲,能夠在單個全局命名空間中存儲PB或EB級的數據,並允許使用簡單的鍵來讀取數據。同時像HDFS一樣,對象存儲系統可以在X86節點的群集上運行,並有容錯機制,可以減少丟失數據的機會。

對象存儲擅長存儲大量非結構化數據,例如視頻和圖像。諸如像媒體娛樂、監視、醫療保健以及石油和天然氣領域的公司都是對象存儲的大用戶,這得要歸功於其存儲海量數據的能力。

儘管可伸縮性和彈性是對象存儲的主要優點,但I/O性能和數據局部性卻是其短板。對於那些超大的群集,往往可能需要等待幾秒鐘才能返回所需的數據。因此,對象存儲通常用於備份和存檔,而不是用於熱數據存取。

新型分佈式文件系統

除了對象存儲,現如今也出現了新一代的分佈式文件系統,以及對Lustre等現有文件系統的修改。這些更新的分佈式文件系統中的許多都還提供了S3兼容的API,並且還提供了對象存儲的功能,但是究其內部,它們看起來更像傳統文件系統。

這些新型的分佈式文件系統包括Qumulo[13]的分佈式文件系統,Elastfile[14]的Cloud File System(ECFS),WekaIO[15]的Matrix和Hedvig[16]的Distributed Storage Platform,等等。這些系統所針對的場景往往是那些需要更快訪問的場景。

藉助更先進的數據緩存和數據分層功能,這些分佈式文件系統可以提供快速的文件I/O能力,為現代數據應用程序、新興的機器學習和AI場景所用。同時,它們還能與Docker以及Kubernetes這樣的容器編排框架很好地配合使用,當然也很好地適配了混合雲的部署架構。

總結

軟件定義存儲(software-defined storage)領域現在正是高速增長中。 Gartner[17]在其2018年的分佈式文件系統和對象存儲魔力象限中預測,到2022年,將有80%的企業數據存儲在此類可擴展的存儲系統中。而2018年,則只有40%的企業數據存儲在分佈式文件系統和對象存儲中。

image.png

顯然,我們正處於存儲快速變革時期。在許多情況下,對象存儲和分佈式文件系統之間的邊界變得越來越模糊。許多供應商完全避開了這這些所謂的稱呼,並稱其為“data fabric”。

無論如何,他們都希望提供類似的功能,給與客戶自由選擇的權力,將PB級的數據存儲在他們所選擇的地方(on-premise,雲或混合的形態),並通過各種接口提供服務,包括S3和Swift API,以及低級的塊存儲,和更為高級的標準NFS和SMB接口,來訪問該數據。

在許多大數據的用例中,現如今HDFS似乎是這座“圍城”裡唯一的選擇,而企業現在面臨著大量的大數據存儲選擇。在這個領域中,儘管當前有領導者,但沒有明確的領先者來為後來者明確追趕的方向(除非你將AWS的S3協議視為新的標準協議)。

就像數據孤島的泛濫一樣,我們看到了數據存儲標準的泛濫。這在某種程度上增加了企業的風險,希望避免投資無法持久的技術,這迫使他們做足功課以找到適合他們的軟件定義存儲系統。

附錄

Hitting the Reset Button on Hadoop[18]

Mike Olson on Zoo Animals, Object Stores, and the Future of Cloudera[19]

IBM Challenges Amazon S3 with Cloud Object Store[20]

References

[1] Object and Scale-Out File Systems Fill Hadoop Storage Void: https://www.datanami.com/2019/07/17/object-and-scale-out-file-systems-fill-hadoop-storage-void/
[2] Hadoop的死亡還為時過早: https://www.datanami.com/2019/06/24/hitting-the-reset-button-on-hadoop/
[3] AWS: http://www.aws.amazon.com/
[4] Microsoft Azure: http://www.azure.microsoft.com/
[5] Red Hat: https://www.redhat.com/
[6] SwiftStack: http://www.swiftstack.com/
[7] OpenStack: https://www.openstack.org/
[8] Minio: http://www.min.io/
[9] Scality: http://www.scality.com/
[10] Cloudian: http://www.cloudian.com/
[11] Dell EMC: http://www.dellemc.com/
[12] Nutanix: http://www.nutanix.com/
[13] Qumulo: http://www.qumulo.com/
[14] Elastfile: http://www.elastifile.com/
[15] WekaIO: http://www.weka.io/
[16] Hedvig: https://www.hedvig.io/
[17] Gartner: https://www.gartner.com/
[18] Hitting the Reset Button on Hadoop: https://www.datanami.com/2019/06/24/hitting-the-reset-button-on-hadoop/
[19] Mike Olson on Zoo Animals, Object Stores, and the Future of Cloudera: https://www.datanami.com/2018/09/19/mike-olson-on-zoo-animals-object-stores-and-the-future-of-cloudera/
[20] IBM Challenges Amazon S3 with Cloud Object Store: https://www.datanami.com/2016/10/12/ibm-challenges-amazon-s3-cloud-object-store/


本文轉載自公眾號:數據湖技術

作者:紹賽賽
原文鏈接


阿里巴巴開源大數據技術團隊成立Apache Spark中國技術社區,定期推送精彩案例,技術專家直播,問答區近萬人Spark技術同學在線提問答疑,只為營造純粹的Spark氛圍,歡迎釘釘掃碼加入!
image.png

對開源大數據和感興趣的同學可以加小編微信(下圖二維碼,備註“進群”)進入技術交流微信群。

image.png

Apache Spark技術交流社區公眾號,微信掃一掃關注

image.png

Leave a Reply

Your email address will not be published. Required fields are marked *