云监控通过监控Sever Load Balancer的流入流量、流出流量等多个监控项,为您展示Sever Load Balancer的运行状态,帮助您监测实例的运行状态,并支持对监控项设置报警规则。当您创建Sever Load Balancer实例后,云监控会自动对上述监控项收集数据。

监控服务

  • 监控项说明
    • 四层协议监控项
      监控项 含义 维度 单位 最小监控粒度
      端口流入流量 从外部访问 Sever Load Balancer 指定端口所需要消耗的流量 端口 bit/s 1分钟
      端口流出流量 Sever Load Balancer 指定端口访问外部所需要消耗的流量 端口 bit/s 1分钟
      端口流入数据包数 Sever Load Balancer 指定端口每秒接到的请求数据包数量 端口 Count/Second 1分钟
      端口流出数据包数 Sever Load Balancer 指定端口每秒发出的数据包数量 端口 Count/Second 1分钟
      端口新建连接数 统计周期内平均每秒 TCP 三次握手的第一次 SYN_SENT 状态的数量 端口 Count 1分钟
      端口活跃连接数 当时所有ESTABLISHED状态的连接 端口 Count 1分钟
      端口非活跃连接数 指除ESTABLISHED状态的其他所有状态的当时tcp连接数 端口 Count 1分钟
      端口并发连接数 端口当时连接数总量(活跃连接数和非活跃连接数之和) 端口 Count 1分钟
      后端健康ECS实例个数 健康检查正常实例数 端口 Count 1分钟
      后端异常ECS实例个数 健康检查异常实例数 端口 Count 1分钟
      端口丢弃连接数 端口平均每秒丢弃的连接数 端口 Count/Second 1分钟
      端口丢弃流入数据包数 端口平均每秒丢失的流入包数 端口 Count/Second 1分钟
      端口丢弃流出数据包数 端口平均每秒丢失的流出包数 端口 Count/Second 1分钟
      端口丢弃流入流量 端口平均每秒丢失的入流量 端口 bit/s 1分钟
      端口丢失流出流量 端口平均每秒丢失的出流量 端口 bit/s 1分钟
      实例活跃连接数 实例当时所有 ESTABLISHED 状态的连接 实例 Count/Second 1分钟
      实例非活跃连接数 实例当时除 ESTABLISHED 状态的其他所有状态tcp连接数 实例 Count/Second 1分钟
      实例丢弃连接数 实例每秒丢弃的连接数 实例 Count/Second 1分钟
      实例丢弃流入数据包数 实例每秒丢弃的流入数据包数量 实例 Count/Second 1分钟
      实例丢弃流出数据包数 实例每秒丢弃的流出数据包数量 实例 Count/Second 1分钟
      实例丢弃流入流量 实例每秒丢弃的流入流量 实例 bit/s 1分钟
      实例丢弃流出流量 实例每秒丢弃的流出流量 实例 bit/s 1分钟
      实例最大并发连接数 实例当时连接数总量(活跃连接数和非活跃连接数之和) 实例 Count/Second 1分钟
      实例新建连接数 实例统计周期内平均每秒TCP三次握手的第一次SYN_SENT状态的数量 实例 Count/Second 1分钟
      实例流入数据包数 实例每秒接到的请求数据包数量 实例 Count/Second 1分钟
      实例流出数据包数 实例平均每秒发出的数据包数量 实例 Count/Second 1分钟
      实例流入流量 从外部访问 Sever Load Balancer 实例所需要消耗的流量 实例 bit/s 1分钟
      实例流出流量 Sever Load Balancer 实例访问外部所需要消耗的流量 实例 bit/s 1分钟
    • 七层协议监控项
      监控项 含义 维度 单位 最小监控粒度
      端口QPS 监听端口维度的QPS 端口 Count/Second 1分钟
      端口RT 端口维度的请求平均延时 端口 ms 1分钟
      端口2xx 状态码个数 端口维度的slb返回给client的2xx状态码统计 端口 Count/Second 1分钟
      端口3xx 状态码个数 端口维度的slb返回给client的3xx状态码统计 端口 Count/Second 1分钟
      端口4xx 状态码个数 端口维度的slb返回给client的4xx状态码统计 端口 Count/Second 1分钟
      端口5xx 状态码个数 端口维度的slb返回给client的5xx状态码统计 端口 Count/Second 1分钟
      端口其他状态码个数 端口维度的slb返回给client的other状态码统计 端口 Count/Second 1分钟
      端口Upstream 4xx 状态码个数 端口维度的rs返回给slb的4xx状态码统计 端口 Count/Second 1分钟
      端口Upstream 5xx 状态码个数 端口维度的rs返回给client的5xx状态码统计 端口 Count/Second 1分钟
      端口UpstreamRT 端口维度的rs发给proxy的平均请求延迟 端口 ms 1分钟
      实例QPS 实例维度的QPS 实例 Count/Second 1分钟
      实例Rt 实例维度的请求平均延时 实例 Count/Second 1分钟
      实例2xx 状态码个数 实例维度的slb返回给client的2xx状态码统计 实例 Count/Second 1分钟
      实例3xx 状态码个数 实例维度的slb返回给client的3xx状态码统计 实例 Count/Second 1分钟
      实例4xx 状态码个数 实例维度的slb返回给client4xx状态码统计 实例 Count/Second 1分钟
      实例5xx 状态码个数 实例维度的slb返回给client的5xx状态码统计 实例 Count/Second 1分钟
      实例其他 状态码个数 实例维度的slb返回给client的Other状态码统计 实例 Count/Second 1分钟
      实例Upstream 4XX状态码个数 实例维度的rs返回给slb的4xx状态码统计 实例 Count/Second 1分钟
      实例Upstream 5XX状态码个数 实例维度的rs返回给slb的5xx状态码统计 实例 Count/Second 1分钟
      实例Upstream RT 实例维度的rs发给proxy的平均请求延迟 实例 ms 1分钟
      说明 新建连接数、活跃连接数、非活跃连接数统计的均是客户端到Sever Load Balancer的TCP连接请求。
  • 查看监控数据
    1. 登录云监控控制台
    2. 单击左侧导航栏中云服务监控下的负载均衡,进入负载均衡监控列表页面。
    3. 在列表上方,选择地域,列表中会显示您在该地域下所有的实例。
    4. 单击实例名称或操作中的监控图表,进入监控图表页面,查看相关监控数据。
    5. 单击大小图切换按钮,切换大图显示(可选)。

报警服务

  • 设置报警规则
    1. 登录云监控控制台
    2. 单击左侧导航栏中云服务监控下的负载均衡,进入负载均衡监控列表页面。
    3. 在列表上方,选择地域,列表中会显示您在该地域下所有的实例。
    4. 单击实例列表操作中的报警规则,进入实例的报警规则页面。
    5. 单击右上角的新建报警规则,按照上述参数说明进行报警规则配置后,点击确认按钮即可。
  • 参数说明
    • 产品:例如云服务器ECS、RDS、OSS 等。
    • 资源范围:报警规则的作用范围,分为全部资源实例
      • 全部资源:表示该规则作用在用户名下对应产品的全部实例上。例如设置了全部资源粒度的MongoDB CPU使用率大于80%报警,则只要用户名下有MongoDB CPU使用率大于80%,就会发送报警通知。资源范围选择全部资源时,报警的资源最多1000个,超过1000个可能会导致达到阈值不报警的问题,建议您使用应用分组按业务划分资源后再设置报警。
      • 实例:表示该规则只作用在某个具体实例上。例如设置了实例粒度的主机 CPU 使用率大于80%报警,则只要这个实例 CPU使用率大于80% ,就会发送报警通知。
    • 规则名称:报警规则的名称。
    • 规则描述:报警规则的主体,定义在监控数据满足何种条件时,触发报警规则。例如规则描述为CPU使用率1分钟平均值>=90%,则报警服务会1分钟检查一次1分钟内的数据是否满足平均值>=90%。

      报警规则举例说明:以主机监控为例,单个服务器监控指标15秒上报一个数据点,5分钟有20个数据点。

      • CPU使用率5分钟平均值>90%, 含义是CPU使用率 5分钟的20个数据点平均值大于90%。
      • CPU使用率5分钟总是>90%, 含义是CPU使用率 5分钟的20个数据点全部大于90%。
      • CPU使用率5分钟只要有一次>90%,含义是CPU使用率 5分钟的20个数据点至少有1个大于90%。
      • 公网流出流量5分钟总计>50M ,含义是公网流出流量5分钟的20个数据点求和结果大于50M。
    • 通道沉默时间:指报警发生后如果未恢复正常,间隔多久重复发送一次报警通知。
    • 连续几次超过阈值后报警:连续几次报警的探测结果符合您设置的规则描述,才会触发报警。例如规则描述为“CPU使用率 1分钟内平均值>80%,连续3次超过阈值后报警”,则连续出现3次 CPU使用率 1分钟内平均值>80%的情况,才会触发报警。
    • 生效时间:报警规则的生效时间,报警规则只在生效时间内才会检查监控数据是否需要报警。
    • 通知对象:发送报警的联系人组。
    • 报警级别
      • 电话+短信+邮件+钉钉机器人
      • 短信+邮件+钉钉机器人
      • 邮件+钉钉机器人
    • 邮件主题:默认为产品名称+监控项名称+实例ID。
    • 邮件备注:自定义报警邮件补充信息。填写邮件备注后,发送报警的邮件通知中会附带您的备注。
    • 报警回调:填写公网可访问的URL,云监控会将报警信息通过POST请求推送到该地址,目前仅支持HTTP协议。