伏羲(Fuxi)是十年前最初創立飛天平臺時的三大服務之一(分佈式存儲 Pangu,分佈式計算 MaxCompute,分佈式調度 Fuxi),當時的設計初衷是為了解決大規模分佈式資源的調度問題(本質上是多目標的最優匹配問題)。
隨阿里經濟體和阿里雲豐富的業務需求(尤其是雙十一)和磨練,伏羲的內涵不斷擴大,從單一的資源調度器(對標開源系統的YARN)擴展成大數據的核心調度服務,覆蓋數據調度(Data Placement)、資源調度(Resouce Management)、計算調度(Application Manager)、和本地微(自治)調度等多個領域,並在每一個細分領域致力於打造超越業界主流的差異化能力。
MaxCompute作為阿里經濟體的大數據計算平臺,每天運行著數以千萬計的作業,處理EB級別的數據,這些作業和數據分佈在全球各個數據中心的不同集群,當作業運行和輸入數據不在同一個集群中時,稱之為跨集群數據依賴。隨著MaxCompute業務的高速發展,跨集群依賴量也急速增長。複雜的業務依賴關係不可避免的會產生大量的跨數據中心的網絡傳輸,而跨數據中心的網絡具有帶寬小,延遲高,穩定性低的特點,並且價格還貴。如何平衡各集群的計算和存儲利用率,降低帶寬成本,成為了亟待解決的一個難題。
這次我們不再給你萬字長文,而是請到了“愚公”系統的兩位主要技術負責人,以脫口秀方式,為大家介紹阿里巴巴MaxCompute團隊對於多集群數據和計算調度最優解決方案的探索和階段性成果。
技術人的脫口秀來啦~~~
想了解更多?
歡迎加入 MaxCompute開發者社區釘釘群,與更多阿里巴巴大數據技術專家和大數據開發者共同交流