阿里雲
阿里雲GTS-平臺技術部-SRE混合雲TAM賦能團隊
1. 進入黑屏Terminal
打開天基頁面,Project欄搜索OSS,找到集群運維中心,找到oss-chiji-agent,找到chijiAgent,進入到Terminal,進行相應的檢查,具體檢查內容見後文描述。
圖1:天基中查找oss集群
圖2:OSS集群機器Terminal
2. 檢查checkready是否都為YES
for i in `/apsara/deploy/kuadmin --interactive=false --command=listapp | grep -v :`;do echo ${i}:;/apsara/deploy/ku --interactive=false --command=checkready --appname=$i ;done;
圖3:終端中執行命令檢查checkready
3. 檢查abnchunk是否有lessmin、none以及onecopy
Lessmin:達不到最小備份數壞盤、宕機會出現;但會自動收斂。
None:有文件丟失,如果需要可以在kv回收站找回。
Onecopy:單備份。
for i in {"lessmin","none","onecopy","lessmax"};do echo "Check $i result:";/apsara/deploy/puadmin fs -abnchunk -t $i;done
圖4:終端中執行命令檢查abnchunk
4. 檢查kv_master狀態
/apsara/deploy/mcu gas
觀察state是否為4個following同步的和1個leading;觀察prepared_id和committed_id是否一致;(如果看到Leading列高一些也正常,因為Leading列一般會快一些,其他的會慢慢拉平)。
圖5:終端中執行命令檢查kv_master
5. 檢查lifecycle策略是否正常工作
/apsara/deploy/dsu GetLifecycleStats wellness
查看End Time是否跑完,跑完就是正常時間,否則就是1970年的時間,或者看State狀態為STOPPED也可以。
如果沒跑完需關注start時間,如果超過24h說明lifecycle清理速度已經趕不上需要刪除文件的速度,此時需要增加lifecycle的速度,但是增加速度的同時會增加集群機器性能的壓力,所以要合適的增加。
圖6:終端中執行命令檢查lifecycle
6. 執行命令檢查GC狀態
/apsara/deploy/dsu getallgcstats
關注begin時間,同樣也是關注是否超過24h;如果有很多未gc,也可以手動執行命令清理:/apsara/deploy/dsu startgc。
圖7:終端中執行命令檢查gc狀態
7. 黑屏巡檢的優勢和劣勢
7.1 優勢:
1) 白屏工具異常時可以使用,穩定性高。
2) 無需加載Web界面上那麼多的圖形,故顯示結果不容易出現延遲。
7.2 劣勢:
1) 由於需要人為手動敲命令來進行巡檢,故容易產生誤操作。
2) 需要人為手動敲命令,麻煩,且命令冗長,不容易記住。
8. 使用的工具
1) 天基(關於本產品的詳細使用方式敬請關注SRE課堂的後續內容)。
2) 在terminal中需使用admin用戶的身份執行命令。
9. 結語
如果您對OSS的內容已經產生了濃厚的興趣,如果您想更深入地瞭解OSS產品,敬請期待下期OSS從入門到精通的第三章節的巡檢異常案例解析內容。
往期內容
《OSS從入門到精通》第三章:OSS深度巡檢_01細說白屏巡檢的方方面面
《OSS從入門到精通》第二章:OSS使用及常見操作
《OSS從入門到精通》第一章:OSS產品綜述
我們是阿里雲智能全球技術服務-SRE團隊,我們致力成為一個以技術為基礎、面向服務、保障業務系統高可用的工程師團隊;提供專業、體系化的SRE服務,幫助廣大客戶更好地使用雲、基於雲構建更加穩定可靠的業務系統,提升業務穩定性。我們期望能夠分享更多幫助企業客戶上雲、用好雲,讓客戶雲上業務運行更加穩定可靠的技術,您可用釘釘掃描下方二維碼,加入阿里雲SRE技術學院釘釘圈子,和更多雲上人交流關於雲平臺的那些事。