1. 功能介紹
雲平臺各個產品的性能總覽均需要登錄對應的運維工具查看,在提供相關報告與總結時,會耗費較長的時間,性能容量報告提供雲平臺所有產品的重要指標評估及分析,可以幫助運維快速定位問題,同時可以提供相關性能離線報告,大大減少了運維成本。
1.1 數據來源
封神數據庫
1.2 解決問題
①提供全產品性能分析圖表,提高問題定位速度;
②提供整個雲平臺容量分析;
③支持下載離線報告。
2. 開發架構
2.1 架構說明
性能容量報告集成在封神監控系統中,數據來源於封神數據庫的監控數據,對性能容量數據進行定時分析打點並記錄入庫,前端展示與離線報告讀取對應數據,以圖表可視化形式展示,如下圖所示。
圖1
2.2 功能特點
- 功能集成在封神系統中,對生產環境無任何影響;
- 分析當前雲平臺整體運行狀況,並給出優化建議;
- 可視化展示各個產品的實例狀態,提高運維效率;
- 提供離線的數據報告,及實例性能的全量數據下載。
2.3 功能結構及產品列表
標籤頁 |
產品 |
概述 |
資源容量,實例/主機數量,告警數量 |
基礎 |
天基,ecs,oss,slb,盤古 |
中間件 |
mq,edas,schx |
數據庫 |
rds,drds,minirds,ots,ads |
大數據 |
dataworks,odps |
底座 |
docker,ops,otsinner,ftp-server,minirds,slb,vpc |
3. 功能詳情
性能容量報告中按照總體概述、基礎組件、中間件、數據庫、大數據和底座進行展示分類(詳見2.3節),主要展示類型有曲線圖、柱狀圖、餅圖、熱力圖和表格形式,並對可視化內容進行分析,給出建議,可以支持時間檢索或下載離線報告;
3.1 餅圖性能分析
- 圖中為ECS產品的整體性能情況,清晰的展示了當前雲平臺的ECS資源使用情況;
- 單擊圖中右上角的“搜索”按鈕,可以根據所需數據的時間範圍進行檢索;
- 圖中紅色文本框為分析建議,大部分ECS性能使用率都在30%以下,可見當前雲平臺ECS都比較空閒,需要進行適當縮容回收資源。
圖2
3.2 曲線性能分析
- 圖為雲平臺各個產品的盤古水位使用情況,可以展示固定時間範圍內的盤古水位趨勢;
- 如圖所示當前雲平臺盤古水位使用率幾乎都未超過30%,不需要進行優化。
圖3
3.3 柱狀性能分析
- 圖為雲平臺所有docker宿主機的CPU資源數與已分配的CPU資源數對比圖;
- 如圖所示,當前環境docker宿主機CPU資源超售情況比較嚴重。
圖4
3.4 熱力性能分析
- 圖為雲平臺所有docker宿主機的單個CPU使用情況,可以結合圖(3-3)進行對比分析;
- 方格中的數字為x軸對應內核的CPU使用率,鼠標懸浮其中一個內核便可以顯示對應內核的掛載容器;
- 當運維過程中有CPU遷移工作時可以參考此熱力圖,選擇同組ASW的宿主機進行遷移。
圖5
3.5 表格容量分析
- 下圖為當前雲平臺的整體資源使用情況分析;
- 圖中展示了全部的資源數量與已使用的資源數量,以及對資源使用的預測。
圖6
上述示例是報告中幾種典型可視化展示方式,每個雲產品都由不同的圖表組成,以及對應的分析建議。
我們是阿里雲智能全球技術服務-SRE團隊,我們致力成為一個以技術為基礎、面向服務、保障業務系統高可用的工程師團隊;提供專業、體系化的SRE服務,幫助廣大客戶更好地使用雲、基於雲構建更加穩定可靠的業務系統,提升業務穩定性。我們期望能夠分享更多幫助企業客戶上雲、用好雲,讓客戶雲上業務運行更加穩定可靠的技術,您可用釘釘掃描下方二維碼,加入阿里雲SRE技術學院釘釘圈子,和更多雲上人交流關於雲平臺的那些事。