配置健康检查

重要

本文中含有需要您注意的重要提示信息,忽略该信息可能对您的业务造成影响,请务必仔细阅读。

将边界路由器VBR(Virtual Border Router)连接至云企业网实例后,您可以通过云企业网的健康检查功能探测VBR实例关联的物理专线的连通性。在云企业网和本地数据中心存在冗余路由的场景下,健康检查探测到物理专线故障后支持自动切换到可用路由,保障流量传输不中断。

背景信息

工作原理

健康检查原理

在您为VBR实例配置健康检查后,阿里云默认每隔2秒从每个健康检查源IP地址向本地数据中心的健康检查目标IP地址发送一个ping报文,如果ping报文从被探测物理专线链路原路返回,则认为物理专线链路正常。如果某条物理专线上连续8个ping报文都无响应或者ping报文从其他路径被返回,则说明该物理专线链路故障。

健康检查探测到物理专线链路故障后并不会向您发送通知,推荐您为物理专线配置报警规则,物理专线触发报警规则后,系统会向您发送报警通知,方便您及时处理问题。

警告
  • 健康检查目标IP地址必须保证能正常回应ping的探测,本地数据中心不能对ping探测进行限速或者禁止ping探测。

  • 如果本地数据中心网络设备配置了控制面板策略CoPP(Control Plane Policing)(如思科设备) 或者本机防攻击策略(如华为设备)可能会导致健康探测报文被丢弃,造成健康检查链路震荡,建议本地数据中心网络设备取消CoPP限速配置。

冗余物理专线说明

健康检查-路由切换

对于本地数据中心通过多个物理专线连接至阿里云的场景,推荐您为每个VBR实例配置健康检查。如果健康检查探测到物理专线链路故障,系统默认会将当前物理专线的流量切换至其他任意一个正常的物理专线进行传输。

在您配置健康检查时,您也可以通过健康检查的切换路由功能自定义是否允许路由切换。

前提条件

您已经将物理专线关联的VBR实例连接至云企业网实例。具体操作,请参见创建VBR连接

步骤一:在云企业网管理控制台添加健康检查配置

  1. 登录云企业网管理控制台
  2. 在左侧导航栏,单击健康检查
  3. 健康检查页面,选择VBR实例所在的地域,然后单击设置健康检查

  4. 设置健康检查对话框,根据以下信息配置健康检查,然后单击确认

    配置

    说明

    云企业网实例

    选择已连接VBR实例的云企业网实例。

    边界路由器(VBR)

    选择待监控的VBR实例。

    源IP

    源IP地址可通过以下两种方式进行配置:

    • 自动生成源IP(推荐):系统自动为您分配100.96.0.0/16网段内的IP地址。

    • 自定义源IP:源IP地址可以是10.0.0.0/8、192.168.0.0/16、172.16.0.0/12三个网段内任意一个没有被使用的IP地址,但不能与云企业网中要互通的IP地址冲突,也不能和VBR实例的阿里云侧、客户侧IP地址冲突。

    说明
    • 对于自动生成源IP的方式:

      • 在以下地域下,每个地域最多支持为16个VBR实例自动分配源IP地址。

        单击查看地域信息美国(硅谷)、中国(香港)、美国(弗吉尼亚)、华北2(北京)、华东2(上海)、华南1(深圳)、新加坡、华东1(杭州)、华南2(河源)、西南1(成都)、华北3(张家口)、德国(法兰克福)、马来西亚(吉隆坡)、英国(伦敦)、华北1(青岛)、印度尼西亚(雅加达)、华北5(呼和浩特)、华南3(广州)、华北6(乌兰察布)、华东5(南京-本地地域)、日本(东京)

      • 在菲律宾(马尼拉)、韩国(首尔)、华东6(福州-本地地域)、泰国(曼谷)地域下每个地域最多支持为8个VBR实例自动分配源IP地址。

    • 无论您选择哪种配置方式,健康检查配置完成后,云企业网均会向VBR实例传播一条目标网段为源IP地址,子网掩码为32位的路由条目。

      如果VBR实例和本地数据中心之间运行BGP动态路由协议,则当前路由条目会通过BGP动态路由协议被传播至本地数据中心。

    目标IP

    目标IP地址为VBR实例客户侧IP地址。

    发包时间间隔(秒)

    指定健康检查发送连续探测报文的时间间隔。单位:秒。

    取值范围:2~3。默认值:2。

    探测报文个数(个)

    指定健康检查发送连续探测报文的个数。单位:个。

    取值范围:3~8。默认值:8。

    切换路由

    是否开启健康检查的路由切换功能。

    系统默认选择开启本功能。健康检查探测到物理专线链路故障时,如果云企业网实例中存在冗余的路由,健康检查则会立刻触发路由切换使用可用链路。

    若您关闭本功能,健康检查仅执行链路探测功能。若健康检查探测到物理专线链路故障,则不会触发路由切换。

    警告

    若您选择关闭本功能,请确保您有其他方式保证链路的冗余性,否则当物理专线链路故障后,会导致网络中断。

    描述

    为健康检查添加描述信息。

步骤二:在本地数据中心侧添加健康检查配置

您需要在本地数据中心侧添加健康检查相关配置,以确保健康检查正常工作。

  1. 在本地数据中心侧添加健康检查探测报文的回程路由。

    重要
    • 如果您的VBR实例使用的是边界路由协议BGP(Border Gateway Protocol)协议,配置健康检查后阿里云侧默认会将健康检查源地址通过掩码为32位路由方式宣告给本地数据中心,您无需再在本地数据中心侧配置健康检查探测报文的回程路由。

    • 如果您的VBR实例使用的是静态路由,您必须在本地数据中心手动配置目标网段为健康检查源地址,子网掩码为32位,下一跳指向对应物理专线的路由条目,否则健康检查探测ping报文无法正常从被探测物理专线原路返回,会导致阿里云误判物理专线链路不可用。

    以下为手动添加健康检查探测报文回程路由的配置示例,仅供参考。具体配置命令,请您咨询设备厂商。

    #配置健康检查探测报文的回程路由
    ip route <健康检查源IP地址> 255.255.255.255 <目标VBR实例阿里侧IP地址>
  2. 在本地数据中心侧添加健康检查的配置。

    您可以在本地数据中心通过双向转发检测BFD(Bidirectional Forwarding Detection)或者网络质量分析NQA(Network Quality Analyzer)方式添加健康检查的配置,以确保本地数据中心侧也可以探测到物理专线的连通性。具体配置命令,请咨询设备厂商。

  3. 在本地数据中心侧添加健康检查和路由联动的配置。

    对于本地数据中心通过多个物理专线连接至阿里云的场景,您需要在本地数据中心添加健康检查和路由联动的配置,以确保本地数据中心侧也可以探测到物理专线的连通性并可以根据健康检查结果自动实现路由切换。具体配置命令,请咨询设备厂商。

步骤三:在云监控管理控制台添加报警规则

配置健康检查后,推荐您为物理专线添加报警规则,在物理专线触发报警规则后,系统会向您发送报警通知,方便您及时处理问题。

  1. 登录云监控控制台

  2. 在左侧导航栏,选择报警服务 > 报警规则

  3. 报警规则页面,单击创建报警规则

  4. 创建报警规则面板,选择产品云企业网-边界路由器,然后配置相关报警规则,单击确认

    此处仅列举和本文强相关的配置。关于其余参数的配置,请参见创建报警规则

    单击添加规则,然后在添加规则描述面板配置以下参数信息,然后单击确定

    配置

    说明

    规则名称

    阈值报警规则的名称。

    指标类型

    阈值报警规则的指标类型。本文以单指标为例进行配置说明,关于多指标和动态阈值的参数配置说明,请参见创建报警模板

    • 单指标

    • 多指标

    • 动态阈值

    监控指标

    选择需要监控的指标。

    • 延时:阿里云与本地数据中心通信时延情况。

    • 丢包率:阿里云与本地数据中心通信的丢包率。

    • 边缘路由器流出带宽:阿里云去往本地数据中心方向使用的带宽。

    • 边缘路由器流入带宽:从本地数据中心去往阿里云方向使用的带宽。

    阈值及报警级别

    配置报警规则的报警条件、报警阈值和报警级别。

    监控图表预览

    监控指标的监控图表预览效果。

更多操作

操作

说明

操作步骤

编辑健康检查

设置健康检查后,您可以修改健康检查的源IP、目标IP、发包时间间隔、探测报文个数的配置。

说明

不支持修改切换路由的配置,如果您需要修改切换路由的配置,需删除当前健康检查配置,然后重新添加。

  1. 登录云企业网管理控制台

  2. 在左侧导航栏,单击健康检查

  3. 健康检查页面,选择VBR实例所在的地域。

  4. 找到待修改的健康检查配置,在操作列单击编辑

  5. 编辑健康检查对话框,修改健康检查的源IP、目标IP、发包时间间隔、探测报文个数的配置,然后单击确认

删除健康检查

如果不再需要监测物理专线的连通性,您可以删除健康检查。

  1. 登录云企业网管理控制台

  2. 在左侧导航栏,单击健康检查

  3. 健康检查页面,选择VBR实例所在的地域。

  4. 找到待删除的健康检查配置,在操作列单击删除

  5. 删除健康检查对话框,单击确认

常见问题

在转发路由器连接多个VBR实例的场景下,物理专线之间互为冗余是基于什么粒度的?

物理专线之间互为冗余是基于路由条目粒度的。

例如转发路由器连接了VBR1和VBR2,转发路由器路由表下存在如下的三条路由条目:

  • 当VBR1的健康检查失败时,VBR1下访问192.168.1.0/24网段的流量会被切换至VBR2下的物理专线进行传输。

  • 当VBR2的健康检查失败时,VBR2下访问192.168.1.0/24网段的流量会被切换至VBR1下的物理专线进行传输,VBR2下访问192.168.2.0/24网段的流量不会被切换传输路径。

目标网段

下一跳

下一跳关联的网络实例

192.168.1.0/24

VBR1连接

VBR1

192.168.1.0/24

VBR2连接

VBR2

192.168.2.0/24

VBR2连接

VBR2

在转发路由器连接多个VBR实例的场景下(物理专线之间互为冗余),如果所有VBR实例的健康检查均失败,是否会导致流量中断?

  • 从阿里云去往本地数据中心的流量,阿里云侧默认通过最后一个VBR实例下的物理专线进行传输。

    • 如果最后一个VBR实例健康检查失败,但是物理专线连通性实际是正常的,则会导致阿里云去往本地数据中心流量可用带宽减少(即只能通过一条物理专线进行传输)。

    • 如果最后一个VBR实例健康检查失败,物理专线故障,则会导致阿里云去往本地数据中心的流量中断。

    最后一个VBR实例是指健康检查最后失败的VBR实例。例如转发路由器连接了VBR1、VBR2和VBR3,转发路由器路由表中存在以下3条路由条目,系统先检测到VBR1和VBR2的健康检查失败,最后检测到VBR3的健康检查失败,则VBR3即为最后一个VBR实例,阿里云去往本地数据中的流量均会通过VBR3下的物理专线进行传输。

    目标网段

    下一跳

    下一跳关联的网络实例

    192.168.1.0/24

    VBR1连接

    VBR1

    192.168.1.0/24

    VBR2连接

    VBR2

    192.168.1.0/24

    VBR3连接

    VBR3

  • 从本地数据中心去往阿里云的流量,请根据您的网络配置自行评估。

在转发路由器连接多个VBR实例的场景下(物理专线之间互为冗余),如果所有VBR实例的健康检查均失败,是否会发生路由切换?

路由切换的动作取决于物理专线连通性的变化,当健康检查探测到物理专线由连通变为不通,或者由不通变为连通时才会触发路由切换。

删除健康检查配置,是否会导致路由动荡或者流量中断?

  • 如果您在云企业网管理控制台删除了健康检查配置,不会导致路由动荡。系统会默认当前物理专线正常,并依据路由向当前物理专线转发流量。

    如果当前物理专线实际处于故障状态,则会导致流量中断。

  • 如果您在本地数据中心删除了健康检查配置,请根据您的网络配置自行评估。

相关文档