公网NAT网关监控与运维

如果您想实时监控网关性能、出入方向流量统计,您可以使用云监控服务来监控公网NAT网关。云监控可以从公网NAT网关中监控并收集实时指标,并在公网NAT网关控制台生成可视化的时序曲线图。

增强型NAT网关

查看监控

公网NAT网关监控

  1. 登录NAT网关管理控制台
  2. 在顶部菜单栏,选择公网NAT网关的地域。
  3. 公网NAT网关页面,找到目标公网NAT网关,然后在监控列单击图标查看监控。

    image

    具体监控指标如下表所示。

    监控指标分类

    监控项

    说明

    Session统计

    并发连接数/端口分配失败丢失数(count)

    NAT网关可同时容纳的TCP和UDP连接数量。

    并发丢弃连接速率(countS)

    NAT网关连接数超过并发连接数限制,而导致连接被丢弃的速率。

    新建连接速率/新建丢弃连接速率(countS)

    • 新建连接速率:NAT网关每秒可新建的TCP和UDP连接数。

    • 新建丢弃连接速率:NAT网关每秒新建连接数超过每秒最大新建数连接限制,而导致新建连接数被丢弃。

    并发连接水位/新建连接水位(%)

    • 并发连接水位:已消耗连接数占总连接数的百分比。

    • 新建连接水位:已消耗的新建连接数占总新建连接数的百分比。

    说明

    单个NAT网关实例默认支持每秒10万新建连接数以及每分钟200万并发连接数。当业务需求触发NAT网关的弹性能力变化时,相关的调整将在大约10分钟内生效。

    端口分配失败丢失数(count)

    NAT网关访问目的地址并发连接数过高时分配TCP或UDP端口失败的次数。

    说明
    • 单个弹性公网IP(Elastic IP Address,简称EIP)可提供SNAT分配的端口数量有限。当用户访问同一个目的地址的会话数量过多而配置的SNAT规则使用的EIP数量过少时,会造成端口分配失败。

    • 当端口分配失败丢弃计数持续增长时,建议您增加SNAT规则中配置的EIP数量。更多信息,请参考创建SNAT IP地址池

    入方向流量统计

    入方向流量速率(bps)

    入方向每秒接受的流量,包括:

    • 从公网来流量速率:公网每秒发送到NAT网关的流量。

    • 入VPC流量速率:NAT网关每秒到VPC的流量。

    入方向流量(bytes)

    入方向所消耗的流量,包括:

    • 从公网来流量:公网发送到NAT网关的流量。

    • 入VPC流量:NAT网关发送到VPC的流量。

    入方向包速率(countS)

    入方向每秒接受的数据包数量,包括:

    • 从公网来包速率:公网每秒发送到NAT网关的包数量。

    • 入VPC包速率:NAT网关每秒发送到VPC的包数量。

    入方向包量(count)

    入方向所消耗的数据包数量,包括:

    • 从公网来包量:公网发送到NAT网关的包数量。

    • 入VPC包量:NAT网关发送到VPC的包数量。

    出方向流量统计

    出方向流量速率(bps)

    出方向每秒接受的流量,包括:

    • 入公网流量速率:NAT网关每秒发送到公网的流量。

    • 从VPC来流量速率:VPC每秒发送到NAT网关的流量。

    出方向流量(bytes)

    出方向所消耗的流量,包括:

    • 入公网流量:NAT网关发送到公网的流量。

    • 从VPC来流量:VPC发送到NAT网关的流量。

    出方向包速率(countS)

    出方向每秒接受的数据包数量,包括:

    • 入公网包速率:NAT网关每秒发送到公网的包数量。

    • 从VPC来包速率:VPC每秒发送到NAT网关的包数量。

    出方向包量(count)

    出方向所消耗的数据包数量,包括:

    • 入公网包量:NAT网关发送到公网的包数量。

    • 从VPC来包量:VPC发送到NAT网关的包数量。

公网NAT网关流量监控

异常的ECS实例流量会影响其他ECS实例的SNAT公网访问。开启网关流量监控功能,您可以查看SNAT转发流量监控数据,快速定位流量消耗最大的ECS实例,然后您可以对该ECS实例进行流量管控,实现快速定位并解决故障,提高业务的稳定性。查看网关流量监控前,请确保满足以下条件:

  1. 登录NAT网关管理控制台
  2. 在顶部菜单栏,选择公网NAT网关的地域。
  3. 公网NAT网关页面,找到目标公网NAT网关实例,然后在操作列单击管理
  4. 基本信息页签,单击右侧监控页签。

  5. 单击网关流量情况页签,查看网关流量监控数据。

    image

    • 在时间栏中设置要查看流量监控数据的时间,时间为分钟级。例如,您设置要查看的时间2024年07月18日18:30,则您可以查看2024年07月18日18:30:00~2024年07月18日18:31:00的流量监控数据。

      说明
      • 开启网关流量监控后,您需要等待15分钟,才能查看网关流量监控数据。

      • 网关流量监控功能展示的监控数据可能存在3~5分钟的延迟。例如,您只能在2024年07月18日18:30查看2024年07月18日18:25时间点之前的流量监控数据,而不能查看2024年07月18日18:25时间点之后的流量监控数据。

      • 网关流量监控功能可以展示流量消耗最大的前100个ECS实例的流量信息。

    • 网关流量监控的具体监控数据和说明如下表所示。

      监控数据

      单位

      说明

      入方向带宽

      bps

      说明

      以控制台显示为准。

      从公网进入ECS实例的带宽。

      出方向带宽

      bps

      说明

      以控制台显示为准。

      从ECS实例发往公网的带宽。

      入方向包速率

      个/秒

      从公网每秒进入ECS实例的包数量。

      出方向包速率

      个/秒

      从ECS实例每秒发往公网的包数量。

      并发连接数

      ECS实例通过NAT网关访问公网的活跃连接数量。

      新建连接数

      个/秒

      ECS实例通过NAT网关每秒发起的新建连接数量。

公网NAT网关绑定的弹性公网IP监控

  1. 登录NAT网关管理控制台
  2. 在顶部菜单栏,选择公网NAT网关的地域。
  3. 公网NAT网关页面,找到目标公网NAT网关实例,然后在操作列单击管理
  4. 单击监控和日志页签,然后单击NAT绑定的弹性公网IP监控页签,查看监控指标。

    image

    具体监控指标如下表所示。

    监控项

    说明

    流入带宽

    从公网进入ECS实例的带宽,单位:bps。

    流出带宽

    从ECS实例发往公网的带宽,单位:bps。

    流入包速率

    每秒从公网进入ECS实例的包数量,单位:pps。

    流出包速率

    每秒从ECS实例发往公网的包数量,单位:pps。

    出方向限速丢包速率

    限制每秒丢包的数量,单位:pps。

    入方向限速丢包速率

    限制每秒丢包的数量,单位:pps。

    网络流入带宽利用率

    从公网进入ECS实例的带宽的利用率。

    网络流出带宽利用率

    从ECS实例发往公网的带宽的利用率。

创建阈值报警规则

如果您需要监控公网NAT网关实例的使用和运行情况,您可以通过创建阈值报警规则,实时监控公网NAT网关实例运行情况,保证业务的稳定。

  1. 登录云监控控制台

  2. 在左侧导航栏,选择报警服务 > 报警规则

  3. 报警规则页面,单击创建报警规则

  4. 创建报警规则面板,设置报警规则相关信息,然后单击确认

    本文仅列举与NAT网关强相关的配置项。关于其余配置项,请参见创建报警规则

    参数

    说明

    产品

    云监控可管理的产品名称。例如:增强型NAT网关。

    资源范围

    报警规则的作用范围。取值:

    • 全部资源:表示该规则作用在用户名下对应产品的全部实例上。例如:您设置了全部资源粒度的MongoDB CPU使用率大于80%报警,则只要用户名下有MongoDB CPU使用率大于80%,就会发送报警通知。资源范围选择全部资源时,报警的资源最多1000个,超过1000个可能会导致达到阈值不报警的问题,建议您使用应用分组按业务划分资源后再设置报警。

    • 实例:表示该规则只作用在某个具体实例上。例如:您如果设置了实例粒度的主机CPU使用率大于80%报警,则当该实例CPU使用率大于80%时,会发送报警通知。

    规则名称

    报警规则的名称。

    规则描述

    报警规则的主体,定义在监控数据满足指定条件时,触发报警规则。例如:CPU使用率5分钟平均值>=90%,持续3个周期,则报警服务5分钟检查一次数据是否满足平均值>=90%,只检测3次。

    通道沉默周期

    指报警发生后如果未恢复正常,间隔多久重复发送一次报警通知。

    生效时间

    报警规则的生效时间,报警规则只在生效时间内才会检查监控数据是否需要报警。

    报警联系人组

    发送报警的联系人组。

    高级设置

    报警回调

    填写公网可访问的URL,云监控会将报警信息通过POST请求推送到该地址,目前仅支持HTTP协议。

    无数据处理方法

    无监控数据时报警的处理方式。取值:

    • 不做任何处理(默认值)

    • 发送无数据报警

    • 视为恢复

    标签

    报警规则的标签。包括标签名称和标签值。

相关文档