雲計算

關於雲原生分佈式計算和存儲引擎JindoFS,看這一篇就夠了

Jindo 的由來
EMR Jindo 是阿里雲基於 Apache Spark / Apache Hadoop 在雲上定製的分佈式計算和存儲引擎。Jindo 原是內部的研發代號,取自筋斗(雲)的諧音,EMR Jindo 在開源基礎上做了大量優化和擴展,深度集成和連接了眾多阿里雲基礎服務。阿里雲 EMR (E-MapReduce) 在 TPC 官方提交的 TPCDS 成績,也是使用 Jindo 提交的。

以上摘自【JindoFS概述:雲原生的大數據計算存儲分離方案】
阿里巴巴計算平臺事業部 EMR 技術專家誠歷向我們闡述了 Jindo FS的前世今生。


JindoFS 介紹
JindoFS 主要包含兩個服務組件:Namespace的服務以及Storage 服務,Namespace服務主要JindoFS 元數據管理以及 Storage 服務的管理, Storage 服務主要負責 用戶數據的管理包含本地數據的管理和OSS上數據的管理, JindoFS是雲原生的文件系統,可以提供本地存儲的性能以及OSS的超大容量。

以上摘自【JindoFS解析 - 雲上大數據高性能數據湖存儲方案】
阿里巴巴計算平臺事業部EMR團隊技術專家辰石在本文中介紹了EMR Jindo 的技術存儲分離方案


多樣的存儲選擇
在阿里雲上,大數據存儲主要有三種選擇,分別為Hadoop HDFS、Alibaba HDFS和OSS。Hadoop HDFS有三種存儲方式,EBS雲盤存儲數據可靠,但是後臺有多個數據副本,因此成本較高,同時通過網絡獲取數據性能較低;D1本地磁盤以及I1/I2本地詞盤性能比較高,成本也比較低,但是數據容易丟失,並且運維成本較高。另外一種選擇是Alibaba HDFS,這種方式數據可靠,成本中等,並且數據全部通過網絡傳輸,沒有本地計算。OSS標準存儲經過阿里巴巴的改造和優化之後可以直接在Hadoop中進行讀寫,這就是所謂的NativeOSS,NativeOSS存儲數據可靠,成本較低,並且通用性比較好,但是性能比較低。因此,進一步在NativeOSS上進行了強化,實現了JindoFS,JindoFS做到了數據可靠,成本較低,性能高並且通用性較好,但是需要額外的存儲成本。

以上摘自【助力雲上開源生態 - 阿里雲開源大數據平臺的發展】
在2019杭州雲棲大會大數據生態專場上,阿里巴巴高級產品專家雷飆為大家分享了阿里雲的大數據生態發展現狀。


EMR JindoFS背景
計算存儲分離已經成為雲計算的一種發展趨勢。在計算存儲分離之前,普遍採用的是傳統的計算存儲相互融合的架構(下圖左側),但是這種架構存在一定的問題,比如在集群擴容的時候會面臨計算能力和存儲能力相互不匹配的問題。用戶在某些情況下只需要擴容計算能力或者存儲能力,而傳統的融合架構不能滿足用戶的這種需求,進行單獨的擴充計算或者存儲能力;其次在縮容的時候可能會遇到人工干預,人工干預完後需要保證數據在多個節點中同步,而當有多個副本需要同步時候,可能會造成的數據丟失。而計算存儲分離架構(下圖右側)則可以很好的解決這些問題,使得用戶只需要關心整個集群的計算能力。

以上摘自【JindoFS: 雲上大數據的高性能數據湖存儲方案】
在2019杭州雲棲大會大數據生態專場,阿里巴巴計算平臺事業部EMR團隊技術專家辰石向大家分享了雲上大數據的高性能數據湖存儲方案JindoFS的產生背景、架構


Spark Relational Cache特點
阿里雲EMR是一個開源大數據解決方案,目前EMR上面已經集成了很多開源組件,並且組件數量也在不斷的增加中。EMR下層可以訪問各種各樣的存儲,比如對象存儲OSS、集群內部自建的HDFS以及流式數據等。用戶可以利用EMR處理海量數據和進行快速分析,也能夠支持用戶在上面做機器學習以及數據清洗等工作。EMR希望能夠支撐非常大的業務數據量,同時也希望能夠在數據量不斷增長的時候,能夠通過集群擴容實現快速數據分析。
阿里巴巴的EMR Spark對於1T數據的構建時間只需要1小時。

以上摘自【Spark Relational Cache實現亞秒級響應的交互式分析】
在2019杭州雲棲大會大數據生態專場上,阿里巴巴技術專家健身為大家分享了阿里雲EMR的Spark Relational Cache實現亞秒級響應的交互式分析。


EMR-Jindo:雲原生高效數據分析引擎
下圖展示了TPC-DS的基準測試報告,可以發現在2019年3月份10TB的測試中,性能指標得分是182萬左右,成本是0.31 USD;而2019年十月份同樣的測試性能指標得分已經變成526萬,成本下降到0.53 CNY,也就是說經過半年左右性能提升了2.9倍,成本縮減到原來的四分之一。同時阿里巴巴還成為了首個提交TPC-DS測試100TB測試報告的廠商。這些成績的背後是EMR-Jindo引擎的支持。

以上摘自【EMR 打造高效雲原生數據分析引擎】
在2019杭州雲棲大會大數據技術專場,阿里雲阿里巴巴計算平臺事業部 EMR 技術專家辛庸向大家分享瞭如何基於開源體系如何打造雲上數據分析平臺E-MarReduce(EMR)、EMR-Jindo 引擎背後的相關技術以及以 EMR-Jindo 為核心的雲上大數據架構方案。


首個通過TPC認證的公共雲產品
今年3月份,E-MapReduce成為全球首個通過TPC認證的公共雲產品。2019年9月,E-MapReduce新版本在TPC-DS 10TB benchmark中再次勇奪第一,性能達到5,261,414 QphDS,比之前最好成績提升19%,並且將單位查詢成本降低38%。同時,E-MapReduce首次將TPC-DS數據集規模拓展至100TB,性能達到14,861,137 QphDS,100TB的數據規模是競爭對手產品最大處理能力的10倍。

以上摘自[【阿里雲大數據+AI技術沙龍上海站回顧 | ​揭祕TPC-DS 榜單第一名背後的強大引擎】
](https://developer.aliyun.com/article/728278?spm=a2c6h.12873581.0.0.4dd847b40hWAkD&groupCode=aliyunemr)
EMR 團隊在國內運營最大的 Spark 社區,本次分享,揭祕TPC-DS 榜單第一名背後的強大引擎,探索Pyboot如何打通大數據生態,一同學習業內最新的存儲方案和機器學習平臺。


JindoFS系列直播【Hadoop Job committer 的演化和發展】

視頻鏈接
Job Committer是Mapreduce/Spark等分佈式計算框架的重要組成部分,為分佈式任務的寫入提供一致性的保證,阿里雲智能EMR團隊高級技術專家司麟本次分享主要介紹Job Committer的演進歷史,以及社區和EMR在S3/OSS等雲存儲上的最新進展。


JindoFS系列直播【關於 JindoFS 最新的 OTS 方案】

視頻鏈接
阿里巴巴計算平臺事業部EMR團隊技術專家辰石,在直播中向我們介紹JindoFS的元數據的後端演化。包括JindoFS的架構以及使用場景、JindoFS 元數據的不同的後端支持,以及JindoFS 在雲上環境如何支持 OTS 作為元數據後端。


JindoFS系列直播【存儲計算分離場景的計算適應優化】

視頻鏈接
阿里雲EMR技術專家健身,會在本次分享中介紹雲上大數據處理的存儲計算分離特徵,分析傳統大數據處理中數據本地化與存儲計算分離場景的區別,以及在存儲計算分離場景中阿里雲EMR的相關優化。


JindoFS使用文檔

https://help.aliyun.com/document_detail/141542.html

JindoFS介紹

https://help.aliyun.com/document_detail/141534.html

https://help.aliyun.com/document_detail/141535.html


一張圖看懂JindoFS

image.png


更多JindoFS系列直播請加入釘釘群觀看。

image.png

EMR釘釘產品交流群:

image.png

Apache Spark技術交流社區公眾號,微信掃一掃關注

image.png

Leave a Reply

Your email address will not be published. Required fields are marked *