網絡管理通常可分為帶外管理(out-of-band)和帶內管理(in-band)兩種管理模式,帶外網絡是通過獨立於數據網絡之外的專用管理通道對機房網絡設備(路由器、交換機、防火牆等)、服務器設備(小型機、服務器、工作站)以及機房電源系統進行集中化整合管理的網絡集中管理系統。當企業網絡建成後,網絡上會傳輸各種企業的業務數據,如果業務網絡出現問題,就需要通過帶外網絡來進行故障的排查,保障系統的穩定。
1 帶外網絡結構簡介
圖1:帶外網絡拓撲圖
NC--①--OASW--②--OSW--③--OMR--④--DHCP_SERVER
1.1 角色介紹
- NC:平臺的物理服務器節點(或者交換機節點)。
- OASW:帶外接入交換機。
- OSW:帶外匯聚交換機。
- OMR:帶外核心交換機。
- DHCP_SERVER:DHCP服務器,OPS_OOB容器提供。
1.2 故障場景
- ①之間的連接有問題,將影響指定NC的DHCP地址獲取。
- ②之間的連接有問題,將影響該OASW所有NC的DHCP地址獲取。
- ③之間的連接有問題,將影響OSW下掛所有OASW下所有NC的DHCP地址獲取。
- ④之間的連接有問題,將影響整個環境所有帶外DHCP地址獲取。
2 帶外問題排查步驟
圖2:帶外網絡排查圖
- 排查Client連接帶外網絡的網卡工作是否正常(硬件廠商提供從系統層面校驗的方法,或者現場觀察帶外網卡狀態指示燈是否正常)
- 排查OOB上的DHCP服務是否正常,到帶外網關鏈路是否正常(打出最新的lease信息,看是否有新的交互請求,PING帶外網關看是否通,都OK說明DHCP服務正常)
- 排查問題NC所接的OASW與上行交換機OSW的連接是否正常
- 抓包分析DHCP報文的交互情況