開發與維運

IT打工人,AI又來“搶”你的飯碗了,這次是從數據中心下手

關於人工智能的討論目前主要還集中在自動駕駛汽車、聊天機器人、數字孿生技術、機器人技術以及從大數據集中利用基於AI的“智能”系統獲取業務洞察力等方面。目前儘管可以自主運維的數據中心和自動駕駛汽車一樣還沒有成為現實,但是數據中心人工智能已經在技術、運維和人員等方面取得了許多重大突破。

image.png

人工智能(AI)和機器學習(ML)終究有一天將在企業數據中心內發揮重要作用。未來人工智能或許可以幫助企業創建高度自動化的、安全的且具有自我修復功能的數據中心。這些數據中心能夠以更高的效率和更高的彈性運行,幾乎不再需要進行人工干預。

人工智能提升數據中心效率和擴展業務的潛力主要在以下4個方面:

安全性:公安部在16個城市試點基礎上,在全國分兩批推廣機動車檢驗標誌電子化。
工作負載管理:AI系統可實現工作負載實時地自動向效率最高的基礎設施遷移,這些基礎設施既可以在數據中心內部,也可以在混合雲環境上;既可以在本地,也可以在雲端,還可以在邊緣環境中。
電源管理:基於AI的電源管理可優化冷卻系統,降低電費成本,減少人員數量,提高效率。
設備管理:AI系統可以檢查系統是否配置正確,監視服務器、存儲和網絡設備的健康狀況,預測設備的故障時間。

人工智能與安全

安全運營中心(SOC)的安全專業人員常常會被大量的警報搞得精疲力盡。基於AI的系統可以掃描大量遙測數據和日誌信息,處理一些簡單的工作,從而使得安全專家有時間展開深入的調查。基於AI的系統可以檢測、阻止和隔離威脅,並展開溯源以確定到底發生了什麼,以及黑客能夠利用哪些漏洞。這使得人工智能在實時入侵檢測方面極為有用。

迅速進行根本原因分析可以幫助運維人員做出明智的決定並採取行動。人工智能和機器學習可以通過對事件進行快速分類和聚類的方式,識別出重要事件並將其與噪音分離,從而簡化事件處理(事件響應)。

除了可以幫助解譯那些超出人類能力水平的數據外,AI自動化還可在優化能源使用、工作負載分配和數據中心資產利用效率最大化等方面幫助獲取深刻的洞察力。

基於AI的工作負載優化

無論是在本地還是在雲端,AI在應用程序層可自動將工作負載移動到適當的位置。例如,將工作負載自動遷移到最節能的服務器上,同時確保服務器以最高效率(利用率為70%~80%)運行。

人工智能系統還可將時間敏感性高的應用程序遷移到高效率服務器上運行,同時確保那些不需要迅速執行的應用程序不會消耗過多的電力。

未來,AI/ML還可根據性能、成本、治理、安全性、風險和可持續性等因素,實時決定將工作負載遷移至何處。

將電源管理與服務器工作負載管理整合在一起

AI帶來的好處與出色硬件設計所帶來的好處不在一個層次上。電源管理則是最容易進行改進的地方。這關乎生產力,關係到每個BTU是否可以完成更多的工作,關係到每瓦特電能是否能做更多的工作。

這也意味著工作要更加智能化,以及設備是否能夠更加智能地工作。如果傳感器檢測到服務器運行溫度過高,那麼系統可自動地快速將工作負載轉移到未充分利用的服務器上,以避免關鍵任務應用程序出現中斷的危險。同時系統會調查服務器過熱的原因,是風扇出現了故障(HVAC問題),還是物理組件出現了故障(設備問題),亦或是服務器出現了過載(工作負荷問題)。

image.png

AI系統還可以通過關聯HVAC系統數據和環境傳感器數據來了解設施目前的狀態。例如,基於AI的系統可以幫助數據中心管理員瞭解當前或潛在的冷卻問題。如HVAC單元性能不佳、冷熱通道之間的空氣量不足,以及由於機櫃密度過高阻礙了空氣流通導致冷氣輸送不足等問題。

容量規劃也是一個可能改進的地方。除了尋找發熱點和冷卻點之外,AI系統還能確保數據中心只為適當數量的物理服務器提供電力,如果出現臨時性需求激增的情況,系統還可以啟動新的物理服務器以提高可用容量。

許多企業之所以正在花大力氣研究數據中心電源管理,一方面是為了節省資金,另一方面也是為了承擔起企業的環保責任。有數據顯示,數據中心消耗了全球3%的電力供應,並造成了約2%的溫室氣體排放。

谷歌在2018年曾宣佈已將其多個超大規模數據中心的冷卻系統控制權交給AI程序控制,由AI算法提供的建議使得耗電量下降了40%。

運行狀態監控和配置管理監督

安裝了大量組件的IT機櫃是勞動密集型工作,因此檢查工作可能會存在不及時和不徹底情況。運行狀態監視可檢查設備配置是否正確以及性能是否達到預期效果。

數據中心內還有許多需要定期維護的物理設備。AI系統不僅可以對這些物理設備進行定期維護,還可收集和分析遙測數據,幫助確定需要立即關注的特定區域。以大量傳感數據日誌為基礎的預測性設備故障建模可以發現迫在眉睫的組件或設備故障,並評估是否需要立即維護以避免服務中斷。

人工智能系統最終可能會實現“告訴我問題出在哪裡,我去解決這些問題”,但是即便實現了這一功能,許多數據中心運營商可能只會接受“如果出了問題,請告訴我要去哪裡查看就行了。”

保持設備平穩安全運行的另一個重要環節是控制“配置漂移”。AI可作為“額外的安全檢查”,可幫助識別出由於配置導致的數據中心問題。(注:配置漂移為數據中心術語,指臨時配置隨著時間的變化可能會導致一些問題的發生。)

部署AI所面臨的挑戰

優化和自動化數據中心是數字化轉型計劃中不可或缺的一部分。新冠疫情讓許多公司開始尋求數據中心的進一步自動化,實現數字數據中心由AI驅動並可自我修復。這使得AI在數據中心中具有廣闊的應用前景。一些AI/ML功能可用於事件處理、基礎設施運行狀況和散熱優化。

image.png

儘管如此,要想讓AI/ML模型超越目前的標準數據中心基礎設施管理(DCIM)需要有更多突破,和更多的時間。這與自動駕駛汽車的發展極為類似,早期階段可能非常具有吸引力,但是與最終承諾的顛覆性經濟/商業案例相比仍然相去甚遠。

AIOps平臺的成熟度、IT技能和運維成熟度均為重大挑戰。更高級別的部署面臨的挑戰還包括數據質量,以及IT基礎設施和運維團隊缺乏數據科學技能。此外,需要僱用或培訓合適的人來管理系統,以及需要數據標準和相關體系結構都是部署AI時所面臨的挑戰。

但是自始至終最大的挑戰還是在於人。各種基礎設施的運維人員都在做放權給AI的準備。但是如果人們並不信任做出決定的決策者,那麼在如此大規模的過渡期間人員如何培訓,如何安撫人員的情緒?在過渡期間,人們普遍會想一個問題,那就是如果自己照做了,自己會失業嗎?

對許多企業來說,不僅聘用到資深的數據科學家是一個挑戰,就連培訓現有員工也困難重重。因為企業員工抵制技術的傳統由來已久。以軟件定義網絡(SDN)為例,SDN已經推出十年了,但是仍有3/4以上的IT運維在使用命令行界面。

原文鏈接:https://ai.51cto.com/art/202010/630187.htm
本文轉載自51CTO,本文一切觀點和機器智能技術圈子無關。
在線免費體驗百種AI能力:【點此跳轉】


機器智能技術結尾二維碼.png

Leave a Reply

Your email address will not be published. Required fields are marked *