大數據

李飛飛演講實錄 | 雲原生數據庫2.0:一站式全鏈路數據管理與服務

一、淺談雲原生

(一)雲原生,是未來使用雲的標準方式

1.png

我認為雲原生是未來使用雲的標準方式,雲計算資源無處不在、取之不盡、用之不竭,不用關心雲資源在哪裡、有多少。就像今天我們使用自來水一樣,沒有⼈會費盡心思考慮水從哪裡來。

(二)阿里雲全面引領雲原生分佈式數據庫發展方向

阿里雲在雲原生數據庫領域做了多年的實踐、嘗試與探索,與開發者一起成長。我們認為接下來雲原生數據庫必須關注和發展的領域有以下五個:

2.png

1)雲原生分佈式

將雲原生和分佈式技術深度融合,將Share Nothing、Share Storage、Share Everything架構深度融合。

2)智能化

利用AI、機器學習的技術,讓數據庫系統能夠實現自動駕駛的能力,讓開發者可以更好地管理和使用數據庫的服務,如自動調參、索引推薦、異常檢測等。

3)安全可信

安全可信的能力十分重要,比如說如何確保數據是全鏈路的、加密的、安全的,在存儲、傳輸、計算過程中都能夠提供安全可信的能力。

4)在離線一體化

減少數據鏈路,數據從在線處理、到在線分析、到離線的存儲,能否提供一體化的體驗,讓開發者可以更簡單、更便捷地訪問和處理數據。

5)物聯網多模

面對AIOT、物聯網、車聯網的蓬勃發展,能否打造一個面向開發者與應用的物聯網多模的數據庫。

以上是我們認為接下來非常重要的五個方向,也正因為在這些方向的耕耘,阿里雲在去年獲得了Gartner全球數據庫領導者的突破。

3.png

二、阿里雲數據庫 – 數據管理生命週期

相信對於任何一個開發者而言,在數據層面最關心的是數據管理生命週期。下面站在開發者的視角,闡述數據的全鏈路生命週期到底是什麼。

4.png

第一步是數據的生產和集成,在這一步如何更高效地做數據集成、數據清洗、數據傳輸、數據備份。當做完這步以後,下一步是數據的實時處理,這裡面就是我們非常熟悉的傳統關係型數據庫、在線交易、OLTP等。緊接著就是數據分析和發現,用戶如何做數據脫敏、數據的血緣關係等。

以上就是數據管理的生命全週期,我們在上面構建不同的解決方案,和開發者、合作伙伴一起面向應用、行業、客戶去打造最終的Killer APP。

下面就從生命週期的各個階段來闡述一下我們為開發者提供了哪些工具,開發者基於這些工具可以做哪些事情。

(一)數據生產與集成

5.png

數據生產與集成是數據的第一生命週期,就像新生兒一樣,數據來到這個世界必須要經歷採集,然後是存儲和處理。

如上圖所示,在這個過程中阿里雲提供了DTS(Data Transmission Service),支持17種以上不同的數據源,可以做實時增量或者全量的同步,讓應用非常簡潔地實現數據從多元異構的數據源到多元異構的目標端實時的數據同步。

DBS可以實現跨雲的備份、雲上雲下數據備份的統一,讓數據在多雲多端之間無縫流動。

DMS(Database Management Service)可以幫助用戶做任務編排、數據分析、血緣分析等一系列事情。

以上構成了阿里雲在數據生產和集成的基礎能力。

(二)數據實時處理

數據生產和集成之後是數據的實時處理。

作為開發者,我們最關心的就是確保在任何情況下,在線交易場景的應用永遠在線、數據永遠不丟失,在這裡我們提供了不同的選擇。

1)雲數據庫 RDS:提供企業級數據庫自治能力

首先,阿里雲提供自己的雲數據庫RDS。

每個雲廠商都有RDS,阿里雲的RDS和其他RDS有什麼不同呢?

發展到雲原生數據庫2.0,阿里雲RDS最大的特點就是提供企業級的數據庫自治能力(Autonomous Database Service)。

6.png

首先,通過Kubernetes構建一個雲原生的管控平臺,所有的管控能力都進行了微服務化和容器化部署,這樣可以屏蔽底層多元異構的資源,為開發者提供一個雲原生的開發環境和部署環境。

在這個上面,我們利用AI和Machine Learning的技術,構建了自動駕駛數據庫平臺。為開發者提供了許多能力,比如自動壓測,我們可以自動生成壓測數據,讓它的工作負載與在真實環境幾乎一樣,這樣開發者可以更好地調測在線系統。另外,我們提供了索引推薦、參數調優等一系列自動化自治服務能力。

7.png

此外,困擾開發者的許多問題,比如在線應用運行速度變得很慢,線程池被打滿等,通過DAS(Database Autonomy Service)可以幫助開發者更快更好地發現與解決。

2)雲原生關係型數據庫 PolarDB

除了阿里雲RDS之外,雲原生數據庫2.0最核心的能力之一就是雲原生關係型數據庫PolarDB。

8.png

為了讓開發者能夠更好地在PolarDB上開發應用,我們確保PolarDB 100% 兼容 MySQL、100% 兼容 PostgreSQL、高度兼容 Oracle 語法,讓開發者實現輕鬆上雲。

9.png

很多企業和開發者有向全球部署的需求,比如在線教育、遊戲,需要我們的應用能夠就近服務用戶,阿里雲推出了全球部署的能力,稱為Global Database。這表示PolarDB可以實現跨AZ(Available Zone)的部署,實現RPO等於0,非常低的RTO。通過跨AZ的能力數據實時同步,可以實現用戶在開發者的應用上就近訪問。

10.png

為了讓開發者更好地體驗到阿里雲的產品,我們推出了I/O帶寬免費、性價比更高的PolarDB實例,價格僅為其他雲廠商雲原生數據庫的30%—40%。

除此之外,我們還進行了性能測試。

我們用開發者非常熟悉的SysBench,連接事務處理、讀寫混合測試,測試了CPU 密集型和I/O密集型。

11.png

如上圖所示,我們對比了PolarDB和CPU密集型、I/O密集型兩個雲原生數據庫在SysBench上的標準性能測試,可以看到Polar DB在兩種不同工作負載的情況下都展現出非常優異的性能。

3)雲原生分佈式數據庫PolarDB-X

開發者經常面臨海量數據高併發、超高併發的場景。針對這種場景,阿里雲推出了PolarDB-X,即PolarDB的分佈式版本,也就是將雲原生架構存儲計算分離,上面再構建一層架構來支持一體化分佈式數據庫。

PolarDB-X支持海量高併發、全局二級索引、HTAP複雜查詢、分佈式事務、在線彈性擴展。

12.png

以上圖的全局二級索引為例,它支持ACID,這樣讓開發者可以更關注業務應用的開發,而不需要關注分庫、分表這樣複雜的邏輯。

我們用X-Paxos來支持兩個數據副本、一個日誌副本,而且我們的三副本可以做到跨AZ部署、支持同城跨機房的RPO等於0。

(三)數據分析與發現

實時數據庫處理之後,當積累了大量的交易數據,如何在數據裡面發現信息?這就來到了數據分析和發現階段。

雲原生數據倉庫AnalyticDB(簡稱ADB)是雲原生架構,計算存儲分離,計算資源按需彈性,相對傳統方式,成本可以下降3倍。

13.png

我們在這種雲原生的架構上實現了冷熱數據分層,1TB可以低至114元/月,一份存儲多種計算是未來數據分析領域發展的大趨勢,用一個存儲多種計算引擎可以讓我們適應工作負載,到底是離線的ETL、還是在線的交互式分析,整體成本可以大幅度下降。

14.png

利用前文的這些技術,可以幫助開發者實現在離線一體化的開發和應用,支持離線ETL以及在線的交互式分析,本質上就是將MTB架構和BSP模型完美地結合在一起。

我們也高度兼容生態,並且我們很快會推出Spark兼容版,將這些開源的生態在我們的雲原生數倉ADB裡面完美結合,實現基於負載的智能化調度和混合應用的支持。

(四)數據開發和管理

最後是數據開發和管理。

15.png

我們面向數據庫開發者提供一站式的在線數據平臺,阿里雲的開發者社區支持了幾十萬數據庫開發者利用DMS的能力,訪問和管理多元異構的數據庫資源。

DMS支持開發者們所有耳熟能詳的數據庫,從阿里雲的PolarDB、PolarDB-X、RDS、AnalyticDB等,再到MySQL、Oracle、SQL Server等。

接入以後,它提供數據資產、數據庫設計、數據庫開發、數據集成、數據服務等一站式的能力,幫助開發者實現數據化運維、容災/多活、T+1/實時/歸檔、數據集中處理、BI報表、多維分析等能力。

三、阿里雲數據庫開源發佈

(一)阿里雲數據庫產品開源路徑

阿里雲作為全球雲原生數據庫的領導者,將成為第一家宣佈核心的雲原生數據庫技術進行開源的雲廠商,邀請開發者一起共建雲原生數據庫2.0。

16.png

16-2.png

作為全球數據庫領導者,我們將雲原生數據庫PolarDB for PG Paxos高可用集群版開源,目前在Github上開源公開訪問。

在9月份,我們會推出基於HLC混合時鐘的高擴展分佈式版本,在明年會推出Share Nothing的Sharding和插件化版本,在MySQL生態很早就開源了RDS AliSQL,如今做一個重磅升級,RDS會推出RDS GalaxySQL,之後會推出Paxos高可用性版,然後是雲原生的分佈式版。

(二)阿里雲數據庫開源計劃:打造雲原生分佈式數據庫生態

我們看一下具體做哪些事情?

17.png

上圖中是我們為MySQL和PG生態兩大社區準備開源的組件。

數據庫正在加速雲化,雲原生以及分佈式技術正在重塑數據庫整個技術棧。阿里雲在自身互聯網業務和雲數據庫服務有豐富的實踐經驗,在高可用、分佈式、雲原生、存計分離有技術積累。這些技術以組件和系統的方式開放出來,與開源社區一起共建雲原生分佈式數據庫生態。所有開源的組件都採用對開發者最友好的協議,遵循Apache Version 2.0協議,歡迎開發者和我們一起共建全球領先、有中國特色的雲原生數據庫2.0社區。

18.png

比如通過開源的PolarDB for PG版本,利用X-Paxos協議,幫助開發者快速實現RPO等於0,兼容及高可用數據庫。拋棄傳統的主備模式,走向三節點的模式,所有開源的組件都是即插即拔即用,讓開發者快速享受到PolarDB的能力,並且基於現有的PG、MySQL生態持續發展,歡迎大家加入雲原生數據庫2.0的開源社區。

19.png

源碼開放地址:https://github.com/alibaba/PolarDB-for-PostgreSQL

【相關閱讀】

阿里雲開源PolarDB數據庫,與社區共建雲原生分佈式數據庫生態

雲原生數據庫 2.0:一站式全鏈路數據管理與服務

Leave a Reply

Your email address will not be published. Required fields are marked *