開發與維運

雲上技術 | 混合雲多活容災方案

畫板 23@2x-100.jpg

業務容災現今發展趨勢

近年來隨著中國科技水平進步和數字化程度加深,企業開展工作高度依賴業務信息的傳遞和管理,數據中心所承載的業務複雜度大幅提高,與之對應面臨的風險和威脅也越來越大,一旦數據中心因為突發故障中斷了服務,造成的關鍵業務數據(客戶信息、知識資產等)丟失將會嚴重影響企業正常運營。比較典型的例子有2014年,美國空軍國防企業記賬管理系統由於人為誤操作,刪除了數據庫中的重要文件,因無異地容災系統,導致直接損失22億美元。2010年玉樹地震中,某檔案館13萬卷數字檔案被毀,因缺少異地容災手段,導致數據無法恢復。據Gartner Group統計,三分之一的企業在業務中斷後的 4 個月之內倒閉。
特別是金融證券、國家安全等領域,關係到國家經濟建設、社會發展和國防的戰略性核心信息資源,保障其數據安全可靠,避免計算機網絡系統災難導致的數據損失是非常必要的。

然而包含有大量電子設備的數據中心出現突發故障又是不可避免的,日常隨時可能出現像硬件自然老化、人工操作不當、軟件功能缺陷或黑客對系統蓄意攻擊等,都會導致系統運行的非正常中斷,影響系統中數據的正確性或破壞系統數據庫,致使部分甚至全部數據丟失。更不必說遭遇影響面廣泛的火災、地震、洪水等災難,將對數據中心產生毀滅性打擊,業務恢復會難上加難。

傳統業務容災面臨的問題

既然故障的出現是必然事件,有沒有一個完善的災備方案來保證業務運轉,將企業損失降到最低呢?
傳統災備給出了“主備雙數據中心”方案。主數據中心提供日常數據讀寫服務,災難備份中心並不提供線上服務,但會實時同步主數據中心的數據。一旦主數據中心出現故障,通過人工的方式,手動的將主數據中心切換為災難備份中心來繼續提供服務。
隨著企業接入使用,就會發現其明顯的缺點:一方面因為故障後人工切換,需要24小時值守的運維人力,而人的反應速度有限仍會處理不及時。另一方面備數據中心不對外本身就是資源浪費,且備數據中心長時間不對外服務,關鍵時刻切換,是否可以保證仍然可用也要畫一個問號。

此外,對業務量龐大的中大型企業來說,提供服務的主數據中心停留在單地域,備數據中心完全不服務這種模式,會遇到單地域資源瓶頸問題。

多活容災解決方案的架構與特性

針對傳統方案的種種問題,阿里雲經由阿里巴巴電商業務環境逐步演進,在混合雲場景可提供多活容災架構解決方案(Multi-Site High Availability),阿里雲混合雲能夠幫助業務系統快速實現異地雙活。其主要原理是兩個數據中心同時對外服務,運行相同的應用,具備同樣的數據,出現故障時數據中心自動切換,用戶無感知,實現持續的應用可用性和災難備份能力。並且通過資源整合還可以使“雙活”數據中心的服務能力翻倍,最大化利用IT資源。
阿里雲混合雲多活容災架構解決方案由架構加管控組合而成,架構上將業務分為接入層、應用層、數據層三層,應用層又可以細分為微服務調用、消息等多個功能域,每一層都會有相應的多活組件,管控在各層組件的基礎上具備全棧的多活管控能力,將業務恢復和故障恢復解耦,並基於靈活的規則調度、跨域跨雲管控、數據保護等能力,保障故障場景下的業務快速恢復。

1.png

異地雙活架構主要有如下4個核心特性:

1、自上而下的流量管理:應用層和接入層進行流量路由,錯誤流量糾錯和阻斷,流量在單元封閉,當故障發生時將爆炸半徑控制在單元內
2、低門檻接入:提供無代碼侵入的MSHA-Agent,自動識別流量路由標並進行流量染色,支持眾多開源RPC、MQ框架
3、數據雙向同步:數據增量異步實時雙向複製(如服務、消息、數據庫等),同時解決了環形複製問題
4、數據防髒寫:錯誤流量禁寫保護避免髒寫,切流期間禁寫、禁更新保護避免髒寫

2.jpg

業務的典型應用場景

落地到具體應用可以按業務數據維度分成三種類型,分別為讀多寫少型業務、流水單據型業務、狀態依賴型業務。其中讀多寫少型業務、流水單據型業務在混合雲場景較為常用。
典型的讀多寫少型業務有資訊、導購類的服務,例如商品瀏覽、新聞資訊等。其數據特點是讀多寫少,用戶關注的是導購頁中的商品信息,通常不關注商品的上架過程,因此讀鏈路是核心,而寫鏈路是可以被接受短暫的不可用,這種業務特性非常適合採用異地多讀架構。讀鏈路異地多活而寫鏈路保持單點(單地域寫),建設成本低、改造內容少、投入產出比高。
而流水單據型業務較讀多寫少型業務是更復雜的讀寫業務,主要電商交易、賬單流水類服務,例如訂單下單、通話記錄等。更適用於異地雙活架構來進行建設。

目前,阿里混合雲多活容災解決方案已服務多家客戶。中國聯通總部智慧客服聯合阿里雲,打造了智能化、集約化的雲化雙活客服系統,實現聯通客服從接入、外呼到智能IVR、知識中心等7大業務域的雙活容災。歷次大規模雙活容災演練,業務系統秒級切換,為聯通智慧客服提供了有力的容量及容災保障。

結語

雲平臺承載的在線業務系統直接關係到國計民生,影響重大,一旦出現數據篡改丟失和系統長期無法訪問,後果難以承受。阿里雲混合雲多活容災持續為客戶的核心業務保駕護航,為了切實確保數據安全做到萬無一失。


多活容災混合雲解決方案演示


阿里雲混合云為政企提供量身打造的混合雲解決方案
從建好雲、管好雲、用好雲三大維度提供客戶視角的一體化雲平臺服務
更多混合雲資訊,前往混合雲官網

Leave a Reply

Your email address will not be published. Required fields are marked *