大數據

如何為DevOps和SRE選擇監控工具

在開發可靠性或實施彈性DevOps實踐時,決策的核心是數據。如果不仔細監控正常運行時間,網絡負載和資源使用情況等關鍵指標,您將無視在哪裡花精力進行開發或完善操作實踐。幸運的是,可以使用各種各樣的監視工具來幫助您收集和查看此數據。

儘管嘗試完全監視系統中的所有內容可能很誘人,但更集中的監視將更易於實現,併為您提供更多可操作的數據。當基於對客戶影響的度量標準時,SLO之類的SRE實踐最為有用。確定什麼以及如何進行監視是一個重要的決定。在這篇博客文章中,我們將帶您瞭解基礎知識。我們還將建議一些流行的監視工具供您考慮。

在哪裡實施監控

確定在系統體系結構中的哪個位置實施監視非常重要。這將使您能夠圍繞監視工具開發體系結構,而不必改造現有代碼。根據實現的位置,監視工具將能夠觀察不同類型的數據。以下是最常見的監視實現類型的分類,以及提供該監視類型的工具示例:

資源監視:也稱為服務器監視或基礎結構監視,它通過收集有關服務器運行方式的數據來進行操作。資源監視工具報告RAM使用率,CPU負載和剩餘磁盤空間。在具有物理服務器的體系結構中,有關硬件運行狀況的信息(例如CPU溫度和組件正常運行時間)也有助於避免服務器故障。在基於雲的環境中,虛擬服務器系統的聚合更為有用。

網絡監視:這將查看傳入和傳出計算機網絡的數據。您的監視工具可捕獲所有組件(如交換機,防火牆,服務器等)中的所有傳入請求和傳出響應。從網絡監視收集的數據可以與來回的數據總量一樣簡單,也可以與特定請求的頻率一樣細微。

應用程序性能監視:APM解決方案收集有關整體服務執行情況的數據。這些工具會將自己的請求發送到服務,並跟蹤指標,例如響應的速度和完整性。目的是推動對應用程序性能問題的檢測和診斷,以確保服務以預期的水平運行。

第三方組件監視:這涉及監視體系結構中第三方組件的運行狀況和可用性。在這個微服務時代,您的服務可能取決於外部服務(從雲託管到廣告服務器)的正常運行。像應用程序性能監視一樣,工具可以根據自己的請求檢查這些服務的狀態。

您可能需要在整體解決方案中包括每種監視類型中的某些監視。優先考慮使用健壯的冗餘監視工具,以確保不會遺漏潛在問題。同時,指標和警報應與服務綁定,以確保與業務影響相關。

您需要從數據中得到什麼

擁有可操作的數據不僅與數據本身有關。為了正確響應監視工具報告的內容,您需要以最有用的方式顯示數據。監視工具可以為您做一些事情:

當指標超過特定閾值時觸發警報
創建事件日誌,根據參數突出顯示
創建一段時間內的指標圖
一目瞭然地提供關鍵服務運行狀況組件的儀表板
創建可以查詢的日誌數據庫
在制定開發決策或對事件做出響應時,請養成自問的習慣:“為了做出最佳選擇,我現在需要考慮什麼?” 可視化將包含哪些數據以及重要的指標。

開源與購買

要考慮的另一個重要點是,您將在哪裡找到監視工具以及誰來維護它們。開源和可購買的工具各有優缺點。

開源監控工具

這些工具是免費的,這對於工具預算有限的公司來說是一個優勢。它們也是完全可定製的,允許您將它們集成到自己的體系結構中。但是,這種定製將需要專門的開發時間,也許還需要專門的知識。此外,沒有SLA保證可用性,安全性,更新頻率等。您的團隊將承擔這些責任。

購買的監​​控工具

這些工具成本高昂,但具有開源工具無法提供的強大功能。服務提供商將負責保持工具的功能和最新狀態。該提供商可能會提供客戶服務,培訓,文檔和其他資源,以幫助您將工具與堆棧集成。在可靠性時代,值得考慮的是進行投資以確保監視的眼睛始終保持打開狀態。

監控工具比較

以下是針對您的系統考慮的10種最流行的SRE和DevOps監視工具。

AppDynamics 是專注於APM的監視平臺。他們提供的其他功能包括基於AI的見解,用於模擬客戶旅程的最終用戶監控以及具有集成收益分析的業務監控。您可以註冊免費試用。
DataDog是一個針對雲規模服務的監視平臺。它在可視化,警報以及數據合併和分析方面具有強大的功能。它們使性能指標與業務影響相關聯。DataDog提供免費試用。
Prometheus 是一種流行的開源監視工具,提供警報,查詢,可視化和許多其他有用的功能。專門的開發社區提供了大量文檔和說明,以幫助您快速入門。
New Relic 是一個監視平臺,提供了幾個也可以獨立使用的組件:New Relic APM(應用程序性能監視),New Relic Browser和New Relic Infrastructure。他們提供適用於iOS和Android的應用程序,為您提供更多監視選項。
Nagios 提供開源( Nagios Core)和可購買的選件(Nagios XI)。它們提供了高度可定製的界面,並可以監視整個IT網絡。它們還通過配置嚮導來突出其易用性,以引導用戶設置新的監視服務。
Dynatrace 允許與其監視平臺進行跨團隊協作,從而提供一個共享的監視數據單一存儲庫。它們還包括自主雲功能以及將監視功能引入部署的物聯網層的能力。他們還提供免費試用。
Solarwinds 提供了幾種產品,每種產品專門用於監視的不同領域:網絡管理,系統管理,數據庫管理,IT安全性,IT服務管理,應用程序管理和託管服務提供商。每個都可以免費試用。
Site24x7 專門從事網站監視,提供諸如狀態頁和Web服務(例如AWS和Azure)運行狀況診斷的工具。它們還提供綜合Web事務監視,使您可以模擬使用情況並收集指標。他們根據所需的服務提供幾種定價計劃。
SignalFx 提供了廣泛的微服務集成,使您可以看到服務運行狀況的完整圖片。如果您的服務包含許多第三方組件,則這一點很重要。他們的重點是幫助您從單一模型到微服務模型構建您的體系結構。
PRTG Network Monitor 是一項完整的監視服務,可以集成到架構的許多階段和位置。它們在網絡,單個服務器,特定應用程序以及介於兩者之間的所有內容上提供監視。該提供程序還提供免費版本。

Leave a Reply

Your email address will not be published. Required fields are marked *