大數據

業務連續性管理最佳實踐

說明:本文根據付來文老師在 GOPS 全球運維大會 2021 · 深圳站的演講速記整理而成。

作者簡介
付來文,花名“鬱鬆”,2013年加入阿里巴巴,多年來專注於業務連續性管理領域,見證了服務於阿里經濟體的業務連續性管理體系發展。現負責阿里雲一站式服務管理平臺(AIOS)產品及服務,幫助雲上企業解決數字化轉型所需的實時運營及管理問題,保障業務連續性,降低服務成本。

本文介紹更偏業務連續性管理領域的事情,將從兩大塊進行介紹:

  • 一是業務連續性管理的邏輯,不止是業務連續性,而是業務連續性管理,是最佳實踐,包括背景及定義;
  • 二是闡述一下我理解的業務連續性管理,也是我們在實踐中沉澱下來的體系,包括實踐經驗和實踐案例。

1、背景

image

去年由於疫情所催發的社會現象,相信大家或多或少都有一些感受。我是從杭州過來,昨晚看到新聞說深圳又發現一例,我還擔心回不去杭州了:)

健康碼也好,直播教學等等,都是疫情所催生的非常典型的業務應用場景。我不知道今天在座有多少同學真正參與到這個業務過程中去?疫情孵化的機會很短暫,但是如果抓住這個機會,對企業的發展有非常大的幫助,最典型是直播帶貨和在線教育

我個人認為,之前在線教育發展趨勢可能會趨於平緩(整體來說),但是疫情把它又帶起來了。有一個典型的例子,去年在疫情的時候,因為直播教學非常火,有一家公司原來服務非常多的學校,有很多的高中生、中學生、小學生在學校上學,現在由於疫情需要轉移到線上。他的系統假設只能承載X萬人同時在線,疫情帶來了業務增長10倍的機會,但是生產環境在IDC裡面怎麼來快速承載?今天都在提數字化轉型,包括疫情這樣的突發事件帶來的機會,但當機會真的來臨時,在座的同學是否準備好相關的能力去迎接好這樣的機會?從X萬的最高承載量忽然提升10倍,今天我們的經驗和能力是否足夠?尤其是從運維角度,是否能夠幫助公司業務支撐好這個增長規模?這給運維帶來非常大的挑戰。直播帶貨也是一樣,很多電商公司想抓住這個風口,今天我們能否在很短的時間內利用成熟的商業化技術及產品快速搭建一套直播系統,5天搭建和50天自研是兩回事。數字化轉型帶來了非常多的挑戰,今天舉手說用到公有云的公司只有一小部分,我相信上雲趨勢一定會越來越突出。另一個層面,怎麼在數字化轉型的過程中保障好業務連續性。所以每次社會變革都孕育著一些機會,在每次變革過程中,例如第一次工業革命在英國,第二次在美國,都對世界格局帶來很大的變化。那在這次數字化變革過程中,也一定有很大的機會

在轉型的背後,我個人所看到的業務連續性管理的機會

image

另一個層面,剛才提問環節兩位同學提到了一個很有意思的事情,就是中間件是否上雲。這裡有幾個數據,第一是公有云IT基礎設施支出首次超過傳統IT基礎設施。第二是Business DrivenIT。包括我這次來的時候路過機場,也發現華為雲、騰訊雲、阿里雲都有對應的公有云廣告,不知道大家是否觀察到這個現象?我核心想表達的,是技術基礎設施越來越完善,創業創新的成本一定會越來越低,企業一定會越來越專注於業務發展。包括這次疫情有多少家企業基於微信小程序直播帶貨很快速的把生意做起來,這是一個典型的基於雲化的基礎設施所帶來的便利。在這個便利過程中,我想說業務連續性一定會成為快速發展過程當中企業的生命線。我認為業務連續性管理將會成為運維的核心職責之一

2、什麼是業務連續性管理

接下來談什麼是業務連續性管理,管理這個詞我更喜歡用它的英語:Operations。

image

在講這個概念之前,先解一下題。業務大家容易理解一些,今天對於典型的電商場景,什麼是它的業務?對於電商來說是訂單、成交額,對於在線教育來說是線上教學直播的時長。什麼是連續性?也很好理解,可用性、穩定性、MTTR、SLA等都是表示連續性的量化術語。管理即運營,管理需要實時運營。

下方是一些國外機構,我不知道大家對業務連續性的理解有多少,這背後表達是國外已經有一些組織對業務連續性已經有了非常成熟的體系。國外有這些成熟標準體系對標我們國內能做到什麼程度,我們在支持雲上客戶的實踐過程中,也有一些可落地的最佳實踐的經驗。這有個X軸和Y軸,代表隨著技術的發展和業務體量的擴大,對於業務連續性管理的訴求會發生變化。

今天大家來聽我這個場次,什麼概念要印象深刻?這一頁大家可以快速形成一個基本的認知,刷新一下大家對於業務連續性管理的認知(有概念)。

image

接下來這是我為了大家便於理解,整理的業務連續性管理的1234(概念是什麼)。

我先從最中間的管理範疇講起。管理所有資源,包括基礎設施、IOT設備、對應的一些業務和應用。包括管理所有的問題,工單報警、事件、故障。包括這兩天開會時很多公司起到的變更管控。變更是一定會有,如果不變更企業產品迭代就沒辦法持續。左側的組織資源保障非常重要,我們實踐過程中,和一線運維服務人員聊的時候,他們會擔心增加工作量,但我認為更多是需要思考背後帶來的業務價值,再去尋求組織的資源保障。最右邊的是流程機制把控質量,本質上是流程化的改進。下面的產品支撐高效管理,對應的有哪些最佳實踐的產品,以及度量和可視我會在接下來的章節展開介紹。業務連續性管理最終目的是提升業務連續性,降低運維成本。

什麼時候需要業務員連續性管理?有這麼幾個場景大家一定要記住如何運用概念)。

第一是企業突然發生一個重大故障,例如核心業務中斷兩三個小時,這個時候領導一定很關心今天這個問題發生之後我們有什麼體系或者措施保證下次不發生這樣的故障,或者下次再發生這樣的故障我們有什麼措施能快速解決?

第二,今天我們運維做的很多工作,運維團隊如果要有更大的邊界去拓展,可以嘗試運營業務連續性管理,這可以擴展運維的職責分工和業務範圍。

第三,對於運維職能擴展和職業發展方向上的建議,畢竟運維一線的工作會有越來越多的工具,運維同學在某個領域做了這麼長時間之後一定會有自己更高階的發展,而業務連續性管理在阿里已經證實其可行性。阿里對應團隊非常大,已經證明了這是一個成熟的職業路徑,從運維管理向整個業務連續性管理去考慮。這是幾個場景,對大家有一定的收益,幫助大家快速建立認知的場景。

但今天這個最佳實踐不代表是業務連續性的全部,還有很多可擴展的空間,這裡只是最基本的框架,我希望各位能夠基於它,並結合自身企業的情況能夠做相應的擴展,不一定那麼多,也不一定那麼少,大家可以根據自己企業的情況有一個最基本的框架化的認知,做業務連續性管理要有成體系化的認知,知道要做哪些事情。這是我們最佳實踐的經驗。

3、最佳實踐經驗

image

第三部分會展開講,說說我們最佳實踐經驗的來源(概念的落地經驗)。最左邊是阿里巴巴安全生產的實踐經驗,右邊是我們支撐一些雲上客戶的三年時間的實踐經驗,既有阿里巴巴自身實踐經驗的標準化和客製化,也是我們三年多自己所沉澱的最佳實踐,在這個過程中,我們也發現大型的經濟體業務、國計民生尤其需要體系化的業務連續性管理方案,需要將每次的故障影響控制到最低。我們也發現,越來越多中小企業需要開箱即用、按需付費的輕量化運維管理產品。

image

這是一站式管理流程圖,剛才講到整體框架,還有非常多的部分。但是那些怎麼串聯起來,這是一個流程式的指引。它會分四部分,包括業務CMDB配置、發現問題、處理問題、覆盤改進。

大家做業務一定會有一些經歷,即今天新接手一個業務,一定要梳理得很清楚。今天做業務連續性管理,需要把整個公司的業務做從上到下的梳理,公司的核心產品、核心業務有哪些核心模塊,對應的核心指標有哪些。本質上需要運維同學跳過原本基礎設施層面更往上看這個事情。它會有很多業務場景。

故障定義是阿里內部的定義,它的核心價值、核心功能、核心作用是定義好業務的優先級。業務故障並行發生時,要有一個優先級的共識。還有干係人、訂閱關係、服務組都是管理人的資源。

這個流程裡面,上面是通過監控來收集系統的問題,下面是通過工單來收集人工的問題,兩者相關聯才能做整體的業務連續性管理。事件是跟進的機制,確保的是線上每一個發生的異常都能夠及時處理、能夠有人處理、並且處理時有相應的機制

對於故障,是更重的管理模式,每個故障一定會有一個根因,故障找到原因之後,一定要弄清楚這個故障到底技術問題還是流程問題,還是其他的問題,或者是第三方不可抗拒的因素導致的一問題,只有這樣深根究底並制定對應的改進措施,才能形成業務連續性改進的閉環,它持續運營下去才會對線上生產環境會有越來越大的幫助。最後有一個管理者視角的數據報告,業務連續性管理的是業務,是需要面向管理來做運營的,需要藉助管理的力量去推進改進事項落地,通過流程的方式來協同相關的干係人

image

這是產品的實踐經驗,我這裡面沒有太多的產品截圖,更多是講產品體系怎麼來支撐這個事情。這是一個產品的實踐,每個顏色對應的產品功能或者模塊,有CMDB模塊、故障等等。做業務連續性管理,管理工作一定非常多,只有基於產品的基礎上,規範、數據等等才能落地,才能做更高效的運營。

產品的方式有非常多種,你可以選擇自己研發,也可以選擇搭建開源的系統,也可以選擇用相應成熟的商業化產品。

image

這裡是監控,大家都已經非常熟悉,昨天我聽到有提到今天時序數據庫是整個數據庫中增長最快的模塊,情理之中。今天萬物皆可時序數據化、皆可數字化管理,包括對應的IOT的監控。我相信其他的基礎監控、業務監控、應用監控大家都已經比較瞭解。

為什麼提到IoT監控與下面集成監控系統的對接?因為今天的監控系統實在太多,這些監控系統有存在的意義,也非常重要,但還有一個核心的工作要去做,就是把多監控系統能力做一個整合,不管是把數據統一匯聚到TSDB,還是外部所有的記錄做一個匯聚整合,否則監控系統那麼多會帶來非常多的管理成本。基於監控收斂後可以做後續的報警、事件管理等等。如果大家有自研的監控系統需求,可以關注 Prometheus,基於 Prometheus 做一些上層的定製化改造,因為我覺得 Prometheus 在雲原生領域的能力非常全面。當然也可以根據自己企業的需求採用第三方的產品。

image

這是公共雲,前面開場調查環節大家舉手很少,我不展開講了,這是對應阿里公共雲的能力,想表達的意思是今天各位如果要做監控相關的事情,不管是雲上還是開源,已經有非常多的監控產品來做。

監控非常有必要,業務連續性管理的觸手或者抓手是監控。監控加的越多,觸角才更加細,更加實時。這裡的監控層次概念都比較類似,之所以有這個層次,是希望大家有一個框架式的概念。這裡面這麼多層的監控,如果問我哪一層最重要,答案一定業務監控。我們做了很多客戶,有個客戶在幫他把業務監控完善之後,他才知道今天的業務核心峰值是在哪一刻,之前他都沒有這個體感。

image

阿里內部的業務監控已經做得非常完善及成熟,當然做業務監控也有挑戰,尤其是很多同學在做業務監控的時候選擇的方式想的是直接從數據庫裡面寫一個SQL弄出來,這個方式風險非常多,可能會造成線上故障。

業務監控的最佳實踐手段一定是日誌監控。包括我們自己在阿里內部實踐那麼多年下來之後,做到秒級交易訂單也是基於日誌監控。這是一個最基本的日誌格式,這五個標準指標google SRE運維解密、阿里雲、友商雲都提過:總量、成功量、成功率、失敗量和耗時。

image

這是IM工具協同能力。今天IM廠商在這方面的能力已經足夠開放。為什麼提消息碎片即生產力?因為它能很便捷的提升工作效率。大家工作過程中一定會有非常多瑣碎的事務性工作,可以和它結合。大家看功能這麼多,其實它並不複雜,不會耗費太多的研發精力。

image

這是變更管控,線上變更帶來故障是難以避免的,變更管控到底從哪裡入手?審批入手大家都知道了。阿里內部的經驗是變更集成對接。今天一個企業工具發展到一定階段,它能在生產環境做變更的工具一定越來越多,確保線上每發生一個變更一定會有一個集中的變更中後臺的地方能做統一管理,並跟事件、故障做相應的數據聯動查詢,結合之後才能做更好的管控。

image

這是知識庫。知識庫的經驗更適用於有一定業務規模的場景,我們在和一些客戶實踐過程中,業務連續性管理相關的業務問題場景,通過知識庫來降低一線人員的處理成本,發揮著非常重要的作用

而為什麼提到要把工單和報警事件做結合?很典型的場景,很多運維同學在做限流的時候,不知道大家是否去關注過一線客服是否有反饋?很可能已經有一些用戶反饋過來,只是大家不知道。通過工單和報警事件的結合,運維可以站在更高的業務層面去看已經帶來的用戶體驗的影響,可以在限流手段上更精細化,或者時段避開。

image

怎麼樣的運維才能是好運維?大家都是說運維是空氣,平時感受不到,只有出了故障才能感覺到。通過可視化,有一個非常關鍵的作用是將運維工作的業績通過可視化的方式統一展示,給管理層向上管理、主動刷存在感。這非常重要。包括感知,更多是向上的感知,能夠讓上層知道你今天做了這麼多工作,除了有故障的時候,平常沒有故障的時候,到底運維做了哪些事情,通過可視化的手段做更好的向上管理運營,越實時效果越好

4、最佳實踐案例

image

這是我們給一個高校做的實踐案例(概念的具體實踐),有很多業務化的場景,包括常見的學校教室、教學、教務。這次疫情對學校的影響非常大,很多學生都是在線教學,在線教學的直播延時、人數等都是非常關鍵的指標,IOT設備整體管控、應急、策略都非常關鍵。這是我們在教育行業所做的案例,更多想表達的是今天我們能夠跳出各自的固化思維,能夠上升到業務層面去關心企業發展核心關注的指標是什麼,以及站在運維角度怎麼更好的服務這些用戶。

image

最後淺談下發展趨勢,這是第一次講,我不想給太多的未來定義,我覺得今天業務連續性管理可以交給在座的各位去定義(概念可以不斷拓展)。我為什麼講開發是建造業務,是builder,我前面講的邏輯是今天基礎設施越來越完善,企業越來越關注業務開發,但誰來負責deliver業務?應該是運維,就像送外賣一樣,克服各種困難、利用好工具,將做好的產品傳遞給最終客戶。第二,我今天講的是業務連續性管理,但更長遠來看運維應該主導業務連續性的建設,只不過業務連續性管理是抓手。所以我覺得運維背後的邏輯一定在於更好的保障業務連續性,業務履約的事情應由運維來完成

Leave a Reply

Your email address will not be published. Required fields are marked *