本文始發於:雲棲社區
時間:2020-06-02
原文鏈接:https://yq.aliyun.com/articles/763327
網絡管理通常可分為帶外管理(out-of-band)和帶內管理(in-band)兩種管理模式,帶外網絡是通過獨立於數據網絡之外的專用管理通道對機房網絡設備(路由器、交換機、防火牆等)、服務器設備(小型機、服務器、工作站)以及機房電源系統進行集中化整合管理的網絡集中管理系統。當企業網絡建成後,網絡上會傳輸各種企業的業務數據,如果業務網絡出現問題,就需要通過帶外網絡來進行故障的排查,保障系統的穩定。
1 帶外網絡結構簡介
圖1:帶外網絡拓撲圖
NC--①--OASW--②--OSW--③--OMR--④--DHCP_SERVER
1.1 角色介紹
- NC:平臺的物理服務器節點(或者交換機節點)。
- OASW:帶外接入交換機。
- OSW:帶外匯聚交換機。
- OMR:帶外核心交換機。
- DHCP_SERVER:DHCP服務器,OPS_OOB容器提供。
1.2 故障場景
①之間的連接有問題,將影響指定NC的DHCP地址獲取。
②之間的連接有問題,將影響該OASW所有NC的DHCP地址獲取。
③之間的連接有問題,將影響OSW下掛所有OASW下所有NC的DHCP地址獲取。
④之間的連接有問題,將影響整個環境所有帶外DHCP地址獲取。
2 帶外問題排查步驟
圖2:帶外網絡排查圖
- 排查Client連接帶外網絡的網卡工作是否正常(硬件廠商提供從系統層面校驗的方法,或者現場觀察帶外網卡狀態指示燈是否正常)
- 排查OOB上的DHCP服務是否正常,到帶外網關鏈路是否正常(打出最新的lease信息,看是否有新的交互請求,PING帶外網關看是否通,都OK說明DHCP服務正常)
- 排查問題NC所接的OASW與上行交換機OSW的連接是否正常
- 抓包分析DHCP報文的交互情況
李紀偉
阿里雲智能GTS-SRE團隊高級網絡工程師
現就職於阿里雲智能GTS-SRE團隊,負責大數據和網絡相關的技術支持。先後參與過ISP城域網、WLAN無線、政府及企業ICT、網絡安全產品、分保涉密網絡等項目,獲得H3CTE、H3CSE、CCNP、H3CS-WLAN、NSEM、360企業安全等專項認證。
我們是阿里雲智能全球技術服務-SRE團隊,我們致力成為一個以技術為基礎、面向服務、保障業務系統高可用的工程師團隊;提供專業、體系化的SRE服務,幫助廣大客戶更好地使用雲、基於雲構建更加穩定可靠的業務系統,提升業務穩定性。我們期望能夠分享更多幫助企業客戶上雲、用好雲,讓客戶雲上業務運行更加穩定可靠的技術,您可用釘釘掃描下方二維碼,加入阿里雲SRE技術學院釘釘圈子,和更多雲上人交流關於雲平臺的那些事。