李纪伟 阿里云智能GTS-SRE团队 高级网络工程师

现就职于阿里云智能GTS-SRE团队,负责大数据和网络相关的技术支持。先后参与过ISP城域网、WLAN无线、政府及企业ICT、网络安全产品、分保涉密网络等项目,获得H3CTE、H3CSE、CCNP、H3CS-WLAN、NSEM、360企业安全等专项认证。

引言

网络管理通常可分为带外管理(out-of-band)和带内管理(in-band)两种管理模式,带外网络是通过独立于数据网络之外的专用管理通道对机房网络设备(路由器、交换机、防火墙等)、服务器设备(小型机、服务器、工作站)以及机房电源系统进行集中化整合管理的网络集中管理系统。当企业网络建成后,网络上会传输各种企业的业务数据,如果业务网络出现问题,就需要通过带外网络来进行故障的排查,保障系统的稳定。

带外网络结构简介

图1:带外网络拓扑图

NC--①--OASW--②--OSW--③--OMR--④--DHCP_SERVER

  • 角色介绍

    NC:平台的物理服务器节点(或者交换机节点)。

    OASW:带外接入交换机。

    OSW:带外汇聚交换机。

    OMR:带外核心交换机。

    DHCP_SERVER:DHCP服务器,OPS_OOB容器提供。

  • 故障场景

    ①之间的连接有问题,将影响指定NC的DHCP地址获取。

    ②之间的连接有问题,将影响该OASW所有NC的DHCP地址获取。

    ③之间的连接有问题,将影响OSW下挂所有OASW下所有NC的DHCP地址获取。

    ④之间的连接有问题,将影响整个环境所有带外DHCP地址获取。

带外问题排查步骤

图2:带外网络排查图
  • 排查Client连接带外网络的网卡工作是否正常(硬件厂商提供从系统层面校验的方法,或者现场观察带外网卡状态指示灯是否正常)
  • 排查OOB上的DHCP服务是否正常,到带外网关链路是否正常(打出最新的lease信息,看是否有新的交互请求,PING带外网关看是否通,都OK说明DHCP服务正常)
  • 排查问题NC所接的OASW与上行交换机OSW的连接是否正常
  • 抓包分析DHCP报文的交互情况

结语

带外网络也是维护网络稳定的重要运维手段,以上就是带外网络DHCP异常的排查思路及方案,希望对读者有所帮助。