雲計算

【SRE學堂】《OSS從入門到精通》第三章:OSS深度巡檢_02快速吃透黑屏巡檢那些事兒

阿里雲
阿里雲GTS-平臺技術部-SRE混合雲TAM賦能團隊

1. 進入黑屏Terminal

打開天基頁面,Project欄搜索OSS,找到集群運維中心,找到oss-chiji-agent,找到chijiAgent,進入到Terminal,進行相應的檢查,具體檢查內容見後文描述。

1.png

圖1:天基中查找oss集群

1111.png

圖2:OSS集群機器Terminal

2. 檢查checkready是否都為YES

for i in `/apsara/deploy/kuadmin  --interactive=false --command=listapp | grep -v :`;do echo ${i}:;/apsara/deploy/ku  --interactive=false --command=checkready --appname=$i ;done;

3.png

圖3:終端中執行命令檢查checkready

3. 檢查abnchunk是否有lessmin、none以及onecopy

Lessmin:達不到最小備份數壞盤、宕機會出現;但會自動收斂。
None:有文件丟失,如果需要可以在kv回收站找回。
Onecopy:單備份。

for i in {"lessmin","none","onecopy","lessmax"};do echo "Check $i result:";/apsara/deploy/puadmin fs -abnchunk -t $i;done

4.png

圖4:終端中執行命令檢查abnchunk

4. 檢查kv_master狀態

/apsara/deploy/mcu gas

觀察state是否為4個following同步的和1個leading;觀察prepared_id和committed_id是否一致;(如果看到Leading列高一些也正常,因為Leading列一般會快一些,其他的會慢慢拉平)。

5.png

圖5:終端中執行命令檢查kv_master

5. 檢查lifecycle策略是否正常工作

/apsara/deploy/dsu GetLifecycleStats wellness

查看End Time是否跑完,跑完就是正常時間,否則就是1970年的時間,或者看State狀態為STOPPED也可以。
如果沒跑完需關注start時間,如果超過24h說明lifecycle清理速度已經趕不上需要刪除文件的速度,此時需要增加lifecycle的速度,但是增加速度的同時會增加集群機器性能的壓力,所以要合適的增加。

6.png

圖6:終端中執行命令檢查lifecycle

6. 執行命令檢查GC狀態

/apsara/deploy/dsu getallgcstats

關注begin時間,同樣也是關注是否超過24h;如果有很多未gc,也可以手動執行命令清理:/apsara/deploy/dsu startgc。

7.png

圖7:終端中執行命令檢查gc狀態

7. 黑屏巡檢的優勢和劣勢

7.1 優勢:

1) 白屏工具異常時可以使用,穩定性高。
2) 無需加載Web界面上那麼多的圖形,故顯示結果不容易出現延遲。

7.2 劣勢:

1) 由於需要人為手動敲命令來進行巡檢,故容易產生誤操作。
2) 需要人為手動敲命令,麻煩,且命令冗長,不容易記住。

8. 使用的工具

1) 天基(關於本產品的詳細使用方式敬請關注SRE課堂的後續內容)。
2) 在terminal中需使用admin用戶的身份執行命令。

9. 結語

如果您對OSS的內容已經產生了濃厚的興趣,如果您想更深入地瞭解OSS產品,敬請期待下期OSS從入門到精通的第三章節的巡檢異常案例解析內容。

image.png

往期內容

《OSS從入門到精通》第三章:OSS深度巡檢_01細說白屏巡檢的方方面面
《OSS從入門到精通》第二章:OSS使用及常見操作
《OSS從入門到精通》第一章:OSS產品綜述

我們是阿里雲智能全球技術服務-SRE團隊,我們致力成為一個以技術為基礎、面向服務、保障業務系統高可用的工程師團隊;提供專業、體系化的SRE服務,幫助廣大客戶更好地使用雲、基於雲構建更加穩定可靠的業務系統,提升業務穩定性。我們期望能夠分享更多幫助企業客戶上雲、用好雲,讓客戶雲上業務運行更加穩定可靠的技術,您可用釘釘掃描下方二維碼,加入阿里雲SRE技術學院釘釘圈子,和更多雲上人交流關於雲平臺的那些事。

image.png

Leave a Reply

Your email address will not be published. Required fields are marked *