雲計算

運維真的被雲革命掉了嗎?

文 | 阿里雲彈性計算團隊

這是最好的時代,運維向更專業的方向發展。

“Ops 之前不是一個專業,它只有經驗,現在是在把經驗變成專業,對外提供標準化服務。”
—— 阿里雲彈性計算穩定性負責人鹿棠

我的同事、阿里雲彈性計算穩定性負責人鹿棠,他相信,這個是讓運維真正走向專業化的時代。運維人員憑藉著自身的技術和經驗,為企業降本增效,而非人工救火隊。

這是最壞的時代,不少運維人陷入了職業危機。

運維人員似乎也陷入了極致的內卷之中。最早憑几行腳本和深厚的經驗就不愁就業,到如今各種學不完的運維工具,不僅需要上知業務架構和代碼,還需下懂內核和硬件。隨著雲計算、DevOps 等技術趨勢的普及,運維人員面臨著越來越多的挑戰,他們從前所面臨的問題和工作方式,也在重新被定義。

本文將討論以下三個方面 ↓

  • 運維工作所面臨的新變化新趨勢
  • 在雲計算時代大潮下運維人員的工作邊界與路徑是如何被重新定義
  • 一個好的運維體系應該具有什麼特徵

一,運維面臨的新趨勢

回顧歷史,除去早期大企業內部的少量 IT 運維人員,中國運維行業的興起應該是隨著互聯網行業上個世紀 90 年代的發展而來。因此,互聯網行業的運維能力代表了最領先的水平,也引領著運維領域的趨勢和方向。

如今,20 年過去了,互聯網時代進入下半場,傳統企業數字化升級深入。運維人員所面臨的環境和挑戰有了許多改變:

1、企業 IT 系統越發複雜,運維挑戰更大,需要實現更高程度的自動化
隨著數字化升級的深入、業務的增長,企業的 IT 系統日趨複雜,林林總總的網絡設備、服務器、中間件、以及業務系統微服務化等讓 IT 運維人員難以從容應對,即使加班加點地維護、部署、管理也經常會因這樣或那樣的故障而導致業務的中斷,嚴重影響業務的正常運行。

同時,市場競爭變得越來越激烈,企業業務迭代需提速,以搶佔市場先機,互聯網行業尤為明顯。產品市場化或迭代的速度成為產品成功至關重要的一個條件,如何更好地支持業務的快速迭代就成了運維人員又一壓力。顯然,人工的運維方式難以為繼,於是國內運維行業開始尋求自動化。

工慾善其事必先利其器。隨著技術的發展和自動化運維工具的出現,包括事件監控預警、自動化部署、自動化編排以及自助診斷等工具,為運維效率的提升提供了可能

2、雲計算的誕生和大規模普及,帶來了運維對象、運維工具甚至是技能的變化,DevOps 趨勢引起關注。
一般,很多企業會把運維部門的工作分成兩個層級:

一是基礎設施運維,主要是針對企業 IT 基礎設施的管理,包括服務器、交換機、網絡等物理資源的監控、報警、維修上線等。

二是應用運維,主要是針對企業具體業務的運維,包括某些業務應用的上線下線、發佈部署和擴縮容等。

從業務的維度來說,應用運維的效率提升能更直接地加快業務迭代的效率和增長速率;基礎運維則是根基,自建數據中心的企業,其運維的主要工作側重於基礎設施。

雲計算具有“軟件(或服務)定義一切”的特點,雲廠商基本承接了底層基礎設施的維護與虛擬化的工作。上雲之後,企業運維的主要對象則從硬件(服務器等),轉向了面向服務 API 的運維,包括主機運維和應用運維,提倡自動化的部署流水線和持續交付的 DevOps 愈發受到關注。

我們會發現,技術的發展是一個不斷追求將底層基礎設施屏蔽、使開發人員無需關注底層資源的過程,從 Severless、函數計算這些炙手可熱的概念,也能體會一二。

早期,企業可能會是幾個運維人員維護一些應用,負責“從下到上”的維護,新業務的擴展只能招聘更多運維人員。這種“堆人”的戰術是不可持續的。實際上,在許多的大企業內部,許多運維工作已經開始了初步的“平臺化”,即將底層的資源進行集中管理,以節約管理成本。這種“平臺化”,也促進了部分企業內部公共組件的服務化、標準化。

只是,這種方式畢竟比不上雲廠商的規模效應。

而平臺化的對外形式即雲化,可見,從企業內部也能看出,雲化已是無法逆轉的趨勢。借用一篇文章中的說法:雲計算的一個重要特徵就是“開箱即用”,由雲供應商提供集中化的運維管理並以服務方式交付給最終用戶。這讓雲用戶可以從很多繁瑣的日常運維工作中解放出來,真正關注自身的業務發展,從而提升整個行業的運營效率。

3、人工智能與大數據興起
到近幾年,運維時興概念不止於 DevOps,還有各種 DataOps 與 AIOps。這些都反映了運維領域智能化、數據化運作的需求。

智能化實際上是自動化的更高追求,可以進一步釋放運維人員的時間。人工智能熱潮捲到一切實現能夠自動化的領域,運維領域也不例外,這必然是發力的重要方向之一。不過,在大多數企業還未完全實現大規模的自動化,甚至初步的代碼化時,智能運維實際上有點遙遠。

二、新的工作邊界與實現路徑

我們可以看到,環境的變化給運維帶來了自動化標準化、DevOps(開發運維一體化)和 AIOps(智能化)三個趨勢,運維需要在企業運維體系中引入相關理念,甚至進行徹底的改造。而筆者認為,構築一個面向未來的運維體系,除了關注上述新趨勢,還需要關注雲時代下企業運維的工作邊界和實現路徑的變化

諸多時代大潮中,給運維工作帶來最大沖擊的,無疑是雲計算的大規模普及。業務搬到雲上之後,底層的運維工作變少,便引發了運維人員危機的大規模討論。

運維人員的終極目標就是通過高效統籌IT資源幫助業務實現業務價值。

運維最關心的四大方面 ↓

效率提升、穩定、安全、成本優化

到了今天,運維人員追求的還是這四個方面,但在雲計算時代,其工作內容的邊界、實現手段及路徑已發生了巨大變化。

1、持續提效,從單點自動化到標準化
原來,寫 Shell 腳本、借用開源工具是常見的效率提升方式。然而,這種自動化往往是單點的、割裂的、非標準化的。有的時候,甚至兩個工程師所用的腳本都是不同的,工具也不同,而且由於企業內的運維組織架構與分工不同,會存在能力重複建設或信息孤島,對企業而言,運維效率是打折的。

所以我們會說,從前的運維是一種“經驗”,不夠系統化。經驗往往依賴個人積累。

今天,DevOps/GitOps/IaC 可編程基礎設施等趨勢的出現,就是想改變這種單點的、非系統化的“自動化”,雲計算在屏蔽底層硬件的基礎上,還提供了多種開箱即用的工具,推動了 DevOps 的發展。這讓運維效率提升的關鍵詞變成了代碼化、標準化。運維人員需要深度結合自身企業的特點,將經驗抽象化、產品化、平臺化地提供給研發人員。

2、穩定可靠,更少關注底層,更多關注應用和服務
穩定本來可說是運維最為關注的“基石”。傳統的運維要與物理機、網絡設備打交道,還需要建設容災、監控和告警系統來保障業務的穩定運行。

如今,雲計算在平臺層面通過大規模的異地容災、熱遷移等技術,實現了較高的 SLA。企業的運維人員可能只需要偶爾根據雲廠商的建議,通過幾個簡單的 API 或者點擊來避免基礎設施對業務的影響。現在是需要知道自己要做什麼,點點鼠標就完成,之前是建房子還需要自己找木頭。

不過,業務的穩定=基礎設施的穩定性*代碼的穩定,運維團隊釋放出了更多的精力去關注應用和服務的穩定性。在去年全球運維大會上,筆者發現“技術運營”和“BizOps”這些概念也開始出現,都是運維的新價值方向。

運維埋頭搞機器的時代已經過去,“技術運營”要求運維人員更多參與到業務當中,提升用戶體驗,比如考慮大促期間集群是否要擴容、帶寬是否足夠、壓測數據如何等。BizOps 則提倡最瞭解系統運行狀況的應用運維工程師與需求方業務人員之間的反饋與互動,推崇的理念是"好系統是運維出來的"。

3、安全,從自行負責到責任共擔
安全有很多個維度,從我們耳熟能詳的漏洞防護,網絡攻防,到企業常用的代碼檢查、權限管理、日誌審計,一直到更高等級的可信計算,全鏈路加密等。

這些在大企業裡可能需要設立一個安全團隊去負責。比如做日誌審計的話,安全團隊則需要收集每一條日誌,逐一分析和匹配,同時隨著業務代碼迭代而迭代。高度複雜性也讓很多小企業直接選擇裸奔或者使用昂貴的第三方解決方案。

雲則直接提供了多層次、全鏈路的安全,支持精細化的權限管理。比如,雲上所有的操作都會留下記錄,事後可以審計和追溯,這在企業內部無疑需要巨大的成本;阿里云云上專有網絡為企業提供了更便捷的網絡隔離與流量控制;阿里雲彈性計算的最新一代雲服務器全量搭載安全芯片,實現服務器的可信啟動,確保零篡改;在此基礎上,還通過加密計算隔離環 enclave,進一步實現數據的可用不可見,基本已經滿足了金融級別的安全可信需求。

從前,IDC 時代企業自行負責 IT 安全;近幾年,雲安全責任共擔模式在業界已經達成共識。雲廠商負責雲基礎設施層面的安全,用戶負責業務或稱為虛擬化層以上的安全。用戶可以在雲安全市場裡挑選合適的產品來保護自己的內容、平臺、應用程序、系統和網絡安全;同時做好權限控制,避免如刪庫跑路等悲劇的發生。

隨著數字化升級的深入、業務的增長,企業的 IT 系統日趨複雜,林林總總的網絡設備、服務器、中間件、以及業務系統微服務化等讓 IT 運維人員難以從容應對,即使加班加點地維護、部署、管理也經常會因這樣或那樣的故障而導致業務的中斷,嚴重影響業務的正常運行。

4、成本優化,從固定成本到 FinOps
技術層面而言,雲計算所具有的“軟件定義一切”的特性,給運維和開發人員的工作方式帶來了變化,其“彈性”的特徵,也給企業的提供了一種降低資源閒置的“成本優化方式”。

而在商業模式方面,雲計算的“租賃”模式,與傳統的 IT 硬件採購不同,企業的財務需要實現從 Capex(資本性支出)到 Opex(管理支出,即運營成本)的轉化。雲計算有豐富的計費模式,進一步幫助企業達成IT的靈活性與低成本之間的最佳平衡。

因此,對於運維人員而言,雲上運維意味著轉變成本優化的思維。

隨著企業將更多核心業務從數據中心遷移到雲上,越來越多的企業迫切需要對雲上環境進行預算制定、成本核算和成本優化。從固定的財務成本模型,轉化為變化的、按需付費的雲財務模型,這是一個重要的觀念和技術轉變。然而大多數企業尚未對雲財務管理有清晰的認知和技術手段,在 FinOps 2020 年調研報告中,將近一半的受訪者(49%)幾乎沒有或沒有自動化方法管理雲支出。

為了幫助組織更好了解雲成本和 IT 收益,FinOps 理念開始流行。FinOps 是雲財務管理的方式,是企業 IT 運營模式的轉變,目標是提升組織對雲成本的理解和更好地做決策。2020 年 8 月,Linux 基金會宣佈成立 FinOps 基金會,通過最佳實踐、教育和標準推進雲財務管學科。

FinOps 社區中的一位從業者分享了一個來自銀行業的實踐,通過對某個應用的 severless 架構改造,最終實現了月成本比本地部署降低 60%。他指出,雲在降成本方面的作用似乎譭譽參半,實際上這受到企業雲成本優化成熟度的影響,他將其分成爬、走、跑三個階段,當企業純熟運用了雲成本優化後,成本優化的效果是極其顯著的。

1276B9A9-BD92-46b3-A498-334894C8F51A.png

目前雲廠商開始逐漸加大對 FinOps 的支持,幫助企業的財務流程可以更好適應雲資源的可變性和動態性。比如 AWS Cost Explorer、阿里雲費用中心,可以幫助企業更好進行成本分析和分攤。同時,企業還需要通過技術降低成本,比如通過敏捷的彈性伸縮、服務選型、雲上 IaaS+ 的能力和靈活的計費模式,充分發揮雲的特性。

三、運維體系應該具有的四大特徵

綜上,我們發現,在雲上,硬件設備、硬件的監控和調度工作已經交由雲廠商完成。企業運維的工作重心轉變為企業內部運維體系的設計與構建,即需要深度結合自身企業的特點,將經驗抽象化、產品化,形成一套屬於自身企業的運維體系。

結前文總結的合運維自動化、DevOps、AIOps 和 DataOps 等新趨勢,以及雲時代下運維工作邊界的變化,我們認為,一個好的運維體系應該具備以下四個特徵。

1、自動化標準化,體現了 DevOps 和基礎設施即代碼(Infrastructure as Code,簡稱 IaC)等理念。
雲上運維.png

可以說,DevOps 的基礎不僅僅是 IaC,而是 everthing as code。只有完成了代碼這一步,才能做到標準化,運維平臺與開發通過標準的 API 流暢地交流。代碼化也是最終目標“智能運維 AIOps”或“NoOps”的基礎。

阿里雲彈性計算髮布的 ECS 自動化運維套件就體現了 IaC 的理念設計,其中資源編排 ROS 和運維編排 OOS,可以讓用戶通過模板的方式實現自動化的部署和批量運維操作,還支持更為方便的拖拽式操作。研究機構 Gartner 在 2021 年十大雲計算趨勢中就提到“自動化的雲編排和優化”。阿里雲的 ROS 和 OOS、AWS 的 Cloud Formation、Terraform 等,都是類似的自動化編排工具。

阿里雲 ECS 自動化運維套件,對底層資源完整全面的監控,並以事件的方式開放給用戶,用戶可以通過 OpenAPI 或雲監控訂閱,方便其基於事件驅動構建自動化運維體系,這是建設自動化運維體系的重要基礎。

2、具有明確的權限管理與能夠快速集成的安全能力
權限的管理、操作的可追溯與可審計,能夠有效地控制企業安全風險,防止刪庫跑路等事件的發生,並能實現事後的調查與覆盤。

阿里雲 ECS 自動化運維套件中的雲助手,會完整記錄 ECS 中的所有操作記錄;ROS 和 OOS 等編排工具也支持權限管理。前文也簡單提到阿里雲有非常完善的安全能力,實際上,企業在阿里雲上所構建的運維體系,不僅僅是利用自動化工具所搭建出來的運維體系,同時也擁有了阿里雲底層的智能運維能力,這才是企業在阿里雲享受的完整運維體系

3、覆蓋全面,包括自動化的性能管理與雲財務管理工具等,可輔助雲成本優化。
早期的運維往往聚焦在單點的自動化,運維體系追求的應該是全流程的自動化,覆蓋資源和業務的全生命週期。
自動化套件.png

阿里雲 ECS 自動化運維套件覆蓋了雲上服務器的全生命週期管理,從遷雲、部署、日常運維到彈性容量調整。其中彈性伸縮服務 ESS 和彈性供應組 APG 工具針對不同場景的資源擴縮容。利用資源優化顧問可以識別出來使用率低的資源,用戶可以對此資源進行調整以提升資源利用率、降低成本。

4、具備智能化、數據化的基礎
完全實現智能運維,我們認為在大多數企業中還是一個理想的目標,但運維體系至少具備往智能化升級的基礎(即代碼化標準化),或具備部分智能化功能。在阿里雲 ECS 自動化運維套件中,智能化的特性主要在管家服務中,管家服務指的是阿里雲 ECS 一系列用戶幾乎無感的智能功能,包括故障的自動診斷與修復、資源的自動監控與分析優化,更不用說阿里雲 ECS 底層的熱遷移等智能運維能力。

四、結語

從 IDC-host 到 Cloud-host 時代,如今則是進入了 Build-on cloud 的時代。無論是 DevOps 還是雲化,都是大勢所趨,身處其中的運維、開發,企業或雲廠商,都無法逆轉。

與其感嘆時代車輪太快,不如主動擁抱新技術趨勢,將時代趨勢內化為自身的技術紅利與競爭力。從業者主動學習相關知識,作為雲廠商,阿里雲也希望推動 DevOps 理念在中國的落地,幫助中國企業提升數字化、自動化能力

Leave a Reply

Your email address will not be published. Required fields are marked *