雲計算

雲計算

一文讀懂!如何讓大型機構的管理和災備更簡單

7月14日,阿里雲新品發佈會上,阿里雲混合雲產品總監謝寧正式宣佈 阿里雲混合雲 Apsara Stack 重磅升級:企業版能力全面升級、敏捷版場景化新品發佈,為政企搭建上雲高速。 混合雲模式下的“一雲多Region”解決方案是本次重磅升級的重要能力之一,可以按需分層部署多個Region,各個Region之間相互關聯、統一管理。 這個“一雲“和”多Region”究竟是個啥?企業可以用這個架構解決什麼問題? 多Region:超大部署規模和跨域容災我們知道,大型機構或大型企業通常業務遍佈全國甚至全球,往往會選擇在集團總部搭建自己的“專有云”,總部下面有很多分層的職能機構,每一個職能機構又會運行一朵獨立的雲,從而形成集團內部的雲生態,對於這種複雜的總分型場景,多Region架構可以很好的支撐業務的互通互聯,通過大規模部署實現更高、更靈活的工作負載。不同於傳統做法將多個物理集群進行級聯形成超大規模,阿里雲混合雲單集群即可超過1萬臺,好處有兩個,一個是單集群內的資源可以做到彈性調用,一個是支持進行跨域的大數據計算,讓資源和算力真正做到“一朵雲”,提升雲平臺的伸縮能力並顯著降低管理複雜度與成本。 但Region數量多了,安全和穩定的保障就變得格外重要,阿里雲混合雲針對超大規模複雜場景設計了“總部強管控+分級雲“方案,在總部的中心Region及各分級雲的單元Region中,可建立同城容災以確保當前Region內的業務高可用及容災切換能力;而在各單元Region與單元/中心Region之間可建立異地容災,支持任意Region到另外一朵雲的容災;這樣就可以做到中心Region或任意單元Reigon故障都不會影響到其他Region,保證系統業務持續不間斷運行。 除了在故障發生時刻的保障,日常數據可以通過多個Region向一個Region或者另外一朵雲的方式進行跨Region的異地備份,即便真的發生了故障,數據也可以快速的進行恢復。 一雲:混合雲管理平臺自中心到分支的統一管理與運維如果說多Region解決了企業內多雲互相聯通與安全隔離的問題,那麼一雲就是要解決複雜場景下多雲的管理和運維問題。 總部所在的中心Region可通過阿里雲混合雲管理平臺(Apsara Uni-manager)對多Region進行有效管理,混合雲管理平臺是面向阿里雲專有云和混合雲場景的企業級雲管理平臺,提供全方位的雲資源供給、運維和運營管理能力,具備一體化管控、自動化運維、智能化分析及個性化擴展等核心競爭力,致力於簡化混合雲管理。面對大型企業中的複雜組織架構管理,中心Region可以看做是組織的司令部,而混合雲管理平臺就是駐紮在司令部的智能指揮官。其主要採用了分權分域管理模型,在雲資源使用和維護層面可以使擁有一個區域資源管理權限的管理員只能管理自己所轄區域的設備以及使用相關的功能,不能管理其他區域的資源和設備。在業務和數據配置層面讓各個管理區域的管理員也同樣只需關注本區域的業務和數據等資源,無授權時不能查看、修改其他區域的資源。 通過混合雲管理平臺,形成集中管理方式下的分域協作模式,使中心Region和普通Region以省為單位建設、跨本地網部署、資源共享和協同管理,節省配套投資。 同時,應用Region中心化管理或邊緣Region自治管理的靈活切換和配置能力,可以讓維護管理更靈活,充分利用區域運維資源,提高區域運維效率,減輕中心Region所在的區域的產品使用和運維壓力,從而優化跨區域協作的運維流程。 除了一雲統管外,阿里雲混合雲目前可以支持飛天操作系統兼容X86、ARM、RISC-V等多種芯片架構,傳統IT時代圍繞芯片建立IT生態,但云計算從根本上改變了這一模式,雲操作系統可以將服務器芯片、專用芯片等硬件封裝成標準算力,無論底層芯片是X86、ARM、RISC-V還是硬件加速,給客戶提供的都是標準的、高質量的雲計算服務。” “一雲多Region”的最佳實踐目前政務、傳媒、能源等多個行業頭部企業已採用阿里雲的“一雲多Region”解決方案,如其中某能源公司已建設了3個總部數據中心和13個省(市)數據中心,部署的服務器(包含內網、外網)累計超過1.1萬臺。省(市)分公司的數據中心與總部的3個“中心region”形成了物理分散、邏輯統一的“一朵雲”,可以進行統一賬號權限管理、統一資源監控和調度、統一服務和管理、統一運營和運維、統一數據開發和服務。 2021年的今天,雲計算早已深入到企業千萬家,從“全面上雲”到“雲上創新”,雲化業務的規模和複雜度都明顯增長,阿里雲混合雲在提供安全和穩定服務的基礎上,致力於讓建雲更簡單、管雲更精細、用雲更高效,真正幫助企業業務跑的更快,更有收益。 觀看發佈會:https://yqh.aliyun.com/live/apsara_stack_new_release更多混合雲資訊:https://www.aliyun.com/solution/hybridcloud

雲計算

阿里雲混合雲 Apsara Stack 重磅升級 為政企搭建上雲高速

觀看發佈會:https://yqh.aliyun.com/live/apsara_stack_new_release更多混合雲資訊:https://www.aliyun.com/solution/hybridcloud 隨著雲計算技術的不斷演進,產業互聯網的持續升級,政企從全面上雲進入全速重構的數字化新基建的時代。旨在更全面的為雲化各階段政企服務,7月14日,阿里雲混合雲產品總監謝寧 正式宣佈Apsara Stack 重磅升級:企業版能力全面升級、敏捷版場景化新品發佈,為政企搭建上雲高速。 企業版能力全面升級 1) 一雲多芯 + 一雲多Region:阿里雲混合雲可以用同一套雲架構,支持不同種類的芯片和硬件服務器,用軟件能力屏蔽掉硬件的差異,使應用能夠無感知的快速上雲,滿足客戶多樣化的硬件平臺選型需求,同時支持多種芯片的服務器在一朵雲內進行混合部署。針對大型客戶多數據中心分散在不同物理區域但是需要統一管理的業務場景,一雲多Region通過部署位置物理分散,資源管理統一集中的模式,兼顧了區域化部署和全局管控的業務需求。 2) 安全合規能力:阿里雲混合雲成為國內首家通過商用密碼應用安全性評估的雲平臺。通過緊跟國家安全標準的要求,結合強大的自研能力,阿里雲混合雲可以為客戶提供一個安全無憂的企業級雲環境。 3) 全場景災備能力:阿里雲混合雲將兩地三中心的容災模式再升級,針對金融級客戶的極致災備要求,推出了同城三機房的容災能力,通過實現數據庫的三機房的工程化部署,實現了容災場景下RPO=0和自動切換的能力,最終保證了單機房出現機房級故障的額情況下,實現關鍵業務完全無損。這個能力已成功應用到國內某銀行客戶,並通過了實戰演練。 敏捷版場景化新品發佈 全新發布的敏捷版,聚焦典型場景:數據庫/雲原生PaaS/大數據;輕量化輸出:支持3臺服務器起步,小時級交付;靈活兼容:支持虛擬化部署和客戶網絡,更易被集成。 發佈會上,阿里雲數據庫高級產品專家陳招尚、阿里云云原生資深產品專家唐睿分別對敏捷版數據庫場景(DBStack)和敏捷版雲原生PaaS場景(CNStack),就行業趨勢、產品優勢、典型場景和最佳實踐等維度進行了深度解讀。 敏捷版數據庫場景(DBStack)產品矩陣 敏捷版雲原生PaaS場景(CNStack)產品矩陣 歷經10多年的快速發展,雲計算已然從一項新興技術逐步演變為數字經濟重要基礎設施。穩定安全、開放智能的混合雲是政企客戶數字化轉型的必由之路。

雲計算

東方通攜手阿里雲助力行業數字化轉型,打造雲生態

近期,東方通集團生態板塊與阿里雲經過多次深度溝通研討,共同達成建立全方位、多維度的戰略生態合作伙伴關係。東方通已正式加入“阿里雲服務生態計劃”,並獲得服務生態合作伙伴(簡稱MSP)、諮詢和銷售夥伴、產品和解決方案夥伴等全方位的夥伴資質身份。​ 圖1 東方通&阿里雲合作溝通研討會​ 國家“十四五” 規劃中明確提出“加快數字化發展,發展數字經濟”,國家發展改革委官網發佈“數字化轉型夥伴行動”倡議,倡議提出,政府和社會各界聯合起來,共同構建“政府引導—平臺賦能—龍頭引領—機構支撐—多元服務”的聯合推進機制,以帶動中小微企業數字化轉型為重點,在更大範圍、更深程度推行普惠性“上雲用數賦智”服務,提升轉型服務供給能力,加快打造數字化企業,構建數字化產業鏈,培育數字化生態,支撐經濟高質量發展。會議研討中,東方通與阿里雲均表示,希望共同積極構建雲生態圈,以多維度、全方位的戰略合作全天候實現強強聯合。目前,雙方領導已就後續深度融合的戰略方向達成共識並制定了切實可行的行動計劃。​ 作為具體行動的第一步,東方通將主力產品Tongweb與阿里雲的“專有云”進行整體適配併成功上線,雙方合作的解決方案能夠幫助企業用戶方便地構建和管理高效、可靠、穩定和安全的企業應用,充分發揮雙方在企業應用與雲基礎架構方面的技術優勢,為企業客戶減少投入成本的同時又保證應用穩定高效的運行。後續雙方將按計劃,逐步在企業雲應用解決方案、微服務架構企業級應用、雲原生中間件,數據集成、業務集成等多個方面開展廣泛的合作。 圖2 東方通成為阿里雲MSP合作伙伴授權書 阿里雲是全球領先的雲計算及人工智能科技公司,服務全球200多個國家和地區的數百萬客戶,為超過一半的A股上市公司、80%中國科技創新企業提供服務。“阿里雲MSP合作計劃”是阿里雲與管理服務夥伴共同開展的關於商機服務、行業解決方案及雲管理服務等方面的一項合作計劃,阿里雲對合作伙伴的選擇具有很高的標準。​ 作為一家深耕中國基礎軟件與網絡信息安全的企業,東方通擁有應用支撐類、數據集成類及數據中臺類主流產品和解決方案,連續多年在國產中間件市場處於領先地位。同時,東方通積極佈局“大安全”戰略,在網絡與信息安全領域擁有自主核心技術、產品和解決方案。阿里雲擁有豐富的雲產品及解決方案、成熟的雲計算技術及平臺支撐能力。東方通與阿里雲存在高度的資源互補與戰略協同性,雙方可更好地推進相關領域的產品研發、生態體系建設、市場聯合營銷與拓展等工作,此次獲得阿里雲合作伙伴認證,是阿里雲對東方通在基礎軟件與網絡信息安全領域產品解決方案應用開發能力和交付能力的充分肯定,標誌著東方通與阿里雲的合作邁上了一個新的臺階。​ 未來,東方通集團生態板塊業務與阿里雲將在現有的基礎上不斷深化合作,相互促進,一起成長,共同面對市場發展帶來的機遇和挑戰,滿足市場更多元化的需求,實現“安全+數據+智慧+”的業務佈局,為客戶提供基於阿里雲產品及服務的諮詢、交付、運維的全生命週期服務,共建雲生態,攜手推進未來智慧城市和數字經濟建設發展。

雲計算

阿里雲邊緣雲亮相世界人工智能大會 構建場景化邊緣應用

7月8日-11日,以“智聯世界,眾智成城”為主題的2021年世界人工智能大會在上海隆重舉行,來自政府、產業、學術等各界代表圍繞如何促進人工智能、大數據等領域技術創新應用開展深入交流和討論,旨在推動全球科技創新協同,助力打造人工智能世界級產業集群。 在上海世博展覽館H2館,阿里雲舉辦“AI創未來,雲上新城市”主題展覽展示,展區共分為“技術新高地”、“政企數字化”、“美好新生活”三大板塊,以硬件+軟件+互動體驗的形式,聚焦人工智能熱點,以AI技術創新賦能政企數字化轉型。其中,阿里雲邊緣雲展示內容受到參會觀眾和媒體的熱烈歡迎。 阿里雲邊緣雲產品架構與優勢 阿里雲邊緣雲節點是基於自研飛天操作系統的技術架構,構建靠近用戶側的分佈式小型化雲計算平臺。阿里雲邊緣雲節點ENS的產品形態包含公共雲自營節點服務、軟硬件一體化服務的邊緣雲聯節點,滿足不同客戶部署和應用需求。其中,公共雲自營節點服務是基於運營商邊緣機房和網絡以及各類異構資源進行建設,可提供一站式全域覆蓋、彈性交付、優質網絡的分佈式算力服務;邊緣雲聯節點是部署在客戶機房,使用標準軟硬件方案整體交付,由阿里雲提供全生命週期管理運維服務,方便客戶靈活進行業務創新、市場拓展及商業探索。 阿里雲邊緣雲節點ENS的整體系統是由4層能力層技術構建而成,包含算力資源層、操作系統層、能力開放層、生態應用層。 算力資源層 邊緣雲是構建在多種不同類型的算力資源之上的雲計算系統,算力資源層不僅有阿里雲自建的邊緣計算節點,包括基於IDC機房,專門邊緣機房等;還有合作建設的邊緣計算節點,包括跟運營商互聯互通的5G MEC移動邊緣計算節點,以及跟第三方合作的邊緣資源節點,例如配電機房、鐵塔機房、小區物業機房等。不同類型、不同位置、不同種類、不同架構的邊緣基礎設施構成了阿里雲遍佈全球的多樣化邊緣雲節點,面向客戶提供虛機、容器、裸機等多階計算形態產品。 操作系統層 阿里雲邊緣雲操作系統針對大規模、分佈式、輕量化、異構化等特點,自主自研發且具有自主知識產權的全新邊緣雲操作系統,邊緣雲操作系統可以實現對底層千萬級的異構基礎設施的納管,並且能夠彈性的將各類虛擬化資源、實例、業務在不同的節點和基礎設施上進行調度和部署。實現了一套完整的自動化運維管控系統,可以全天候遠程自動化對邊緣雲節點上的系統進行運維管理以及自恢復操作。同時,阿里雲邊緣雲還支持邊緣雲節點在斷網等異常情況下的自治自恢復等功能。同時,在基於虛擬機、容器、函數計算等形式的虛擬化軟件層技術能力上,能夠提供微服務、彈性伸縮、自動編排、自動部署等功能。 能力開放層 能力開放層具有兩大類技術,包括了技術中間件和業務中間件,技術中間件依託阿里雲PaaS技術的積累,通過將CDN、視頻、AI、IOT等技術軟件部署到邊緣雲計算操作系統之上,為各類行業邊緣計算場景提供豐富多樣的技術中間件能力。業務中間件是支持滿足大帶寬、低時延、大連接等場景時,專門面向業務類型提供的技術能力支持,包括無線定位能力、網絡切片能力,全網網絡Qos能力等。最終為構建豐富的邊緣雲生態應用提供保證。 生態應用層 依託數十萬雲上企業客戶和阿里巴巴豐富的生態應用,以及全球覆蓋的基礎設施網絡,阿里雲邊緣雲擁有豐富的產品實踐。在構建邊緣生態時,阿里雲邊緣雲首先通過支持阿里系內部業務進行大量的典型場景的落地實踐,從而形成外部行業典型應用對邊緣計算的系統堆棧的技術和業務需求。在逐漸積累生態應用的過程中,不斷拓展邊緣雲的覆蓋範圍和邊界,從而讓邊緣雲產品技術更好服務行業生態。 邊緣雲典型場景方案 目前,阿里雲提供10多種邊緣雲解決方案覆蓋城市、文娛、電商、遊戲、體育、金融、政企、電力等多行業。比較典型客戶使用場景有: 視圖計算-面向視頻圖像設備終端提供就近的連接、存儲以及計算的PaaS服務,讓視圖數據能更好地上雲。 雲遊戲-構建用戶就近接入的雲遊戲基礎設施,通過提供位置無感的雲上渲染服務,幫助泛遊戲行業客戶快速高效構建雲遊戲業務能力,面向提供玩家高質量的遊戲體驗。 實時音視頻-基於中心雲和邊緣雲的異構節點,構建超低延時、全分佈式下沉的通信級流媒體傳輸網絡,滿足互聯網直播和RTC等多種業務場景的音視頻流傳輸和交換需求。 終端雲化-基於邊緣雲節點ENS的雲端一體智能化解決方案實現企業大幅降低終端投資和運維成本,提升用戶體驗,加速新業務部署。

雲計算

讓大型機構的管理和災備更簡單:一雲多Region解決方案

觀看發佈會:https://yqh.aliyun.com/live/apsara_stack_new_release更多混合雲資訊:https://www.aliyun.com/solution/hybridcloud 7月14日,阿里雲新品發佈會上,阿里雲混合雲產品總監謝寧正式宣佈 阿里雲混合雲 Apsara Stack 重磅升級:企業版能力全面升級、敏捷版場景化新品發佈,為政企搭建上雲高速。 混合雲模式下的“一雲多Region”解決方案是本次重磅升級的重要能力之一,可以按需分層部署多個Region,各個Region之間相互關聯、統一管理。 這個“一雲“和”多Region”究竟是個啥?企業可以用這個架構解決什麼問題? 多Region:超大部署規模和跨域容災 我們知道,大型機構或大型企業通常業務遍佈全國甚至全球,往往會選擇在集團總部搭建自己的“專有云”,總部下面有很多分層的職能機構,每一個職能機構又會運行一朵獨立的雲,從而形成集團內部的雲生態,對於這種複雜的總分型場景,多Region架構可以很好的支撐業務的互通互聯,通過大規模部署實現更高、更靈活的工作負載。不同於傳統做法將多個物理集群進行級聯形成超大規模,阿里雲混合雲單集群即可超過1萬臺,好處有兩個,一個是單集群內的資源可以做到彈性調用,一個是支持進行跨域的大數據計算,讓資源和算力真正做到“一朵雲”,提升雲平臺的伸縮能力並顯著降低管理複雜度與成本。 但Region數量多了,安全和穩定的保障就變得格外重要,阿里雲混合雲針對超大規模複雜場景設計了“總部強管控+分級雲“方案,在總部的中心Region及各分級雲的單元Region中,可建立同城容災以確保當前Region內的業務高可用及容災切換能力;而在各單元Region與單元/中心Region之間可建立異地容災,支持任意Region到另外一朵雲的容災;這樣就可以做到中心Region或任意單元Reigon故障都不會影響到其他Region,保證系統業務持續不間斷運行。 除了在故障發生時刻的保障,日常數據可以通過多個Region向一個Region或者另外一朵雲的方式進行跨Region的異地備份,即便真的發生了故障,數據也可以快速的進行恢復。 一雲:混合雲管理平臺自中心到分支的統一管理與運維 如果說多Region解決了企業內多雲互相聯通與安全隔離的問題,那麼一雲就是要解決複雜場景下多雲的管理和運維問題。 總部所在的中心Region可通過阿里雲混合雲管理平臺(Apsara Uni-manager)對多Region進行有效管理,混合雲管理平臺是面向阿里雲專有云和混合雲場景的企業級雲管理平臺,提供全方位的雲資源供給、運維和運營管理能力,具備一體化管控、自動化運維、智能化分析及個性化擴展等核心競爭力,致力於簡化混合雲管理。 面對大型企業中的複雜組織架構管理,中心Region可以看做是組織的司令部,而混合雲管理平臺就是駐紮在司令部的智能指揮官。其主要採用了分權分域管理模型,在雲資源使用和維護層面可以使擁有一個區域資源管理權限的管理員只能管理自己所轄區域的設備以及使用相關的功能,不能管理其他區域的資源和設備。在業務和數據配置層面讓各個管理區域的管理員也同樣只需關注本區域的業務和數據等資源,無授權時不能查看、修改其他區域的資源。 通過混合雲管理平臺,形成集中管理方式下的分域協作模式,使中心Region和普通Region以省為單位建設、跨本地網部署、資源共享和協同管理,節省配套投資。 同時,應用Region中心化管理或邊緣Region自治管理的靈活切換和配置能力,可以讓維護管理更靈活,充分利用區域運維資源,提高區域運維效率,減輕中心Region所在的區域的產品使用和運維壓力,從而優化跨區域協作的運維流程。 除了一雲統管外,阿里雲混合雲目前可以支持飛天操作系統兼容X86、ARM、RISC-V等多種芯片架構,傳統IT時代圍繞芯片建立IT生態,但云計算從根本上改變了這一模式,雲操作系統可以將服務器芯片、專用芯片等硬件封裝成標準算力,無論底層芯片是X86、ARM、RISC-V還是硬件加速,給客戶提供的都是標準的、高質量的雲計算服務。

雲計算

超視頻化到來,你能看見什麼?

當人類優渥於一種狀態,總有想象力衝破平衡。 1905 年,愛因斯坦否定了絕對時空,引發物理世界三大革命。楊振寧曾說過,“愛因斯坦沒有錯失重點,是因為他對時空有著更自由的眼光。而要有自由的眼光,必須能夠同時近觀和遠觀同一課題。” 2021,阿里雲視頻雲全景創新峰會,努力嘗試站在近景和遠景之處,全景觀察這個時代的超視頻化課題。 這是個怎樣的時代? 這是超視頻化時代。 視頻讓流淌的文字和圖像演化成時代語言,視頻把情緒、立場、眼界、思維立體化封裝。視頻在時間域和空間域,不斷地破維和延伸。 視頻化是一場博物學,包羅文字、影音,包羅空間、引力,包羅人文、情感,它呈現沒有邊界的世界圖景,它表達自由和創造新自由。 在超視頻化時代,視頻衍生了更多新形態,構建了全新的內容鏈條,所謂超內容;視頻化逐漸演變成以人為中心的交互,承載了多維感官、甚至超越時空的體驗,所謂超交互;視頻化讓萬物皆媒,人與人、人與物、人與自然,感應式鏈接,產生一種超社交能力和現象,所謂超鏈接。 視頻成為全新的時代語言,視頻化成為新世紀的新文化運動;而超未來的另一端,現實世界與虛擬世界的物理感知界限將模糊化,最終實現全場景的數字孿生。 當然,5G 是這個時代演進的助推器,讓萬物互聯。而 “雲 + 視頻 “是場景革新的催化劑,讓虛實融合。 隨之,一切內容和交互,都將在這個時代發生聚變。 內容和交互的盡頭在哪? 先談內容。 技術,各式各樣的技術,首先是在呈現一個意義的世界。

雲計算

Serverless 給任務調度帶來的變化及螞蟻集團落地實踐

作者:楊冠超 來源:金融級分佈式架構公眾號Serverless Task 是螞蟻集團在分佈式調度和批處理中間件發展而來的解決方案。通過 ServiceMesh 的精細化引流能力,再利用研發框架的“服務分組”配置能力,將 Serverless Task 流量全部收斂在指定的“服務分組”集群內。結合定時任務本身具備的週期、可預測等特點,根據任務執行情況彈性伸縮“服務分組”內的機器資源從而提升資源利用率。 分佈式調度在螞蟻的場景和遇到的問題 在單體架構中,為了解決一臺機器在固定的週期間隔執行相同的任務,避免人工干預過多,有了基於 Cron 的單機調度;隨著企業級應用的發展和微服務化以及雲原生架構的逐漸演進,原先的單體架構逐漸演變為服務化或者雲原生架構。在此背景下,既要解決原先單機要解決的定時調度問題,還需要解決任務管理、負載均衡以及高可用、容災等問題,同時兼顧用戶體驗的簡單高效,分佈式調度產品就應運而生。 在螞蟻域內,分佈式調度廣泛應用於各個 BU 的業務場景中,舉例:如在支付寶上購買基金的用戶每天需要計算基金收益,那麼就需要在分佈式調度的基礎上結合批處理的能力,充分利用應用集群的處理能力,完成每一個用戶基金淨值的收益計算,典型處理場景如下: 為了充分利用集群的能力,業務會採用按照業務各個維度拆分的方式對數據進行分片,然後根據分片原則加載數據,最後儘可能的將數據分散在集群機器上完成每一個用戶基金淨值的計算。通過類似上述集群執行的方式,結合分佈式調度及批處理的能力,可以完成業務的計算訴求,但是由於這部分計算邏輯被原有的應用集群承載,隨著業務的發展和數據量的不斷增加,就會有如下的問題: 穩定性問題:在線流量如 RPC/MSG 等與任務調度流量(簡稱異步任務流量)在

雲計算

應用運維智能化的關鍵技術——《應用智能運維實踐(試讀版)》

點擊免費下載《應用智能運維實踐(試讀版)》https://developer.aliyun.com/topic/download?id=1193 本章內容簡介 前面介紹了應用智能運維發展演進的歷史,回答了應用智能運維是什麼、為什麼、有什麼價值、能幹什麼的問題。為了指導企業實踐、落地,本章圍繞應用場景,從技術角度總結歸納了相比於傳統的監控運維技術,應用智能運維繫統特有的幾個關鍵技術特徵,以及介紹瞭如何用這些技術來解決實際應用運維問題。 智能運維的核心思想是利用算法來處理海量運維數據,積累運維經驗,從而代替人工思考判斷,以自動化的過程實現風險的預防、發現、定位和處理。在應用運維場景下實現智能化,判斷研究用哪些技術來解決實際問題,需要從具體應用場景出發,匹配現有可行的技術。圖4-1中總結了當前常見的應用智能運維場景,其中包括用於主動發現 圖4-1  常見的應用智能運維場景 潛在風險的應用運行期風險主動探傷、用戶數字體驗保障與優化、風險定位與根源問題分析,以及應用運行期負載趨勢預測與容量規劃等。圍繞這些場景,我們需要從當前可用的統計、機器學習、人工智能和自治控制技術堆棧中匹配相關的算法。總的來說,當前能夠匹配企業應用運維場景、可以用來解決實際運維問題的技術有面向海量實時指標數據的異常檢測、發現異常後的關聯及根源問題定位、風險處理方案決策支持及預防性維護的探傷檢測等。 4.1  異常檢測:篩選時間序列數據,發現潛在風險 4.1.1  技術簡介 隨著互聯網和大數據的發展,數據在現實生活中發揮著日益重要的作用。其中,大部分數據都是流式傳輸的時間序列數據(將同一統計指標的數值按其發生的時間先後順序排列而成的數列)。針對時間序列數據的數據挖掘已經應用於許多領域,其旨在找到一些頻繁出現的模式。當從這些模式中發現某種規律時,異常數據通常被作為噪聲而忽略。但是,在龐大的數據量背後,難免會存在異常數據,從數據的異常中往往能夠獲得更有價值和參考性的信息[1]。快速準確地檢測數據中的異常,既能及時減少損失,又方便在短時間內採取適當的應對策略。尤其是在企業應用中,如果能準確地發現系統中出現的異常,對於系統狀態的檢測及對系統錯誤的處理將起到積極的推動作用。特別是若能夠在異常發生的短時間內檢測且報告異常,然後根據以往的異常數據對異常進行分析,推斷異常出現的位置及原因,並給予初步的建議解決方案,則將對系統狀態穩定起到巨大的作用。 傳統的時間序列數據異常檢測方法通常聚焦在一維場景下,根據不同時間點數據樣本間的關聯來對異常進行判斷。這個方面的工作經過多年的發展已經相對成熟,其中較為簡單的方法包括自適應閾值法、聚類法和指數平滑法等。Smith等人利用三次指數平滑法實現異常檢測,利用歷史數據中的不同特徵來推測當前的數據值,這在商業領域十分有效[2];Stanway等人提出了針對流數據異常檢測的Skyline項目,其包含一組簡單的檢測器和一個投票方案,以輸出最終的異常評分,該項目在監測高流量網站的實時異常方面卓有成效[3];Bianco等人提出的ARIMA算法是一種針對具有季節性的時間序列數據建模的通用技術,它對於檢測有規律的數據效果較好,但無法動態地確定季節性數據中的異常[4]。另外,在一些特定領域,有許多基於模型的方法已經投入應用,但這些方法往往只針對它們建模的領域,如雲數據中心的溫度檢測[5]、飛機發動機測量中的異常檢測[6]和ATM欺詐檢測[7]等。雖然這些方法在特定的異常檢測系統中可能是成功的,但它們無法應用於通用領域。 循環神經網絡(Recurrent Neural Network,RNN)等神經網絡在時間序列數據異常檢測方面具有一定的優勢,是對於時間序列數據訓練最常見的算法模型之一。然而,由於梯度消失問題的存在,傳統的RNN在處理存在長期依賴問題的數據時會遇到巨大的困難[8]。近年來,長短期記憶網絡(Long Short Term Memory Network,LSTM)由於其在處理時間序列數據方面的優勢而受到廣泛關注,LSTM本身的特點使得其極適用於處理時間序列數據,同時LSTM克服了RNN無法處理長距離依賴的缺點,因此,許多學者提出了基於LSTM的異常檢測方法。Numenta公司提出了基於RNN的層級實時記憶HTM算法,並提出了公開數據集NAB,在NAB數據集上驗證了HTM算法的性能[9];Pankaj

雲計算

數字化轉型的路上,手握一張地圖,但路還得自己走

作者|肖晟​ 本文作者來自於中國人壽保險股份有限公司研發中心,對企業數字化轉型、雲原生實踐有比較資深的經驗。以下內容整理自作者對最新出版的《阿里云云原生架構實踐》的讀後感。 初心 ​ 作為金融行業的 IT 從業者,參與著傳統企業數字化轉型進程,我們一直在思考兩個問題:一是什麼是數字化,為什麼要數字化?二是如何推進數字化轉型,路徑、工具、組織等方面該如何規劃調整?​ 大家常常會混淆信息化與數字化的概念,以為上線了一些業務系統或是投放了一些數字大盤,就完成了 IT 建設目標。但實際上這可能只是改變了一些信息數據向領導層流轉的形式,整個業務的工作模式並沒有什麼變化;原來需要人工操作的依然需要人工操作,該走的流程還得接著走(甚至新建的系統還新增了一些流程),效率沒有明顯變化;企業的業績是否有提升,若有提升那與 IT 建設是否正相關,性價比是否划算等等,這些往往也缺乏有效的評價方式,很容易陷入偽數字化的坑。​ “任何架構都必須服務於企業戰略,雲原生架構也不例外! 企業必須清楚業務戰略與雲 IT 戰略之間的關係,即雲IT戰略只是對業務戰略進行必要的技術支撐,還是雲 IT 戰略本身也是業務戰略的一部分。”​ 非常贊同《阿里云云原生架構實踐》一書中提到的觀點,技術終歸是服務於企業價值的。因此,我們認為,數字化是基於信息化的能力改進業務模式,聚合全價值鏈上的各個環節和數據,把著力點放在指導業務運營和決策上;最終表現形式,就是“全量全要素數據+自動化+實時化”的智能形態。 “數字化業務對技術架構的主要訴求是保證業務連續性、業務快速上線、業務成本控制,以及科技賦能業務創新。”​

Scroll to Top