网络智能运维方案

更新时间:

本文档介绍了阿里云云上网络智能运维方案的设计目标与典型场景,围绕通过“大盘”汇聚全局态势、“告警”快速感知与定位问题、“巡检”主动挖掘并消除隐患,以及借助“工具”深入分析和解决根因四大运维手段,系统阐述了如何实现高效、主动、智能的网络运维;同时提供了支撑这些能力的监控与事件平台选型参考,以及各云网络产品的大盘和告警配置详细手册,助力用户在实际业务中落地应用。

1 背景需求

随着企业数字化转型的深入,云网络已成为支撑业务运行的核心基础设施。然而,云环境的复杂性、动态性和规模的持续增长,给传统网络运维带来了前所未有的挑战:

  • 缺乏全局视图:网络资源分散在不同产品中,缺乏统一的监控、分析和告警视图,难以进行全局优化。

  • 复杂性提升:混合云、多云架构、微服务、容器化(如ACK)等技术广泛应用,网络拓扑日益复杂,传统人工运维难以应对。

  • 性能瓶颈难发现:突发流量、带宽瓶颈、延迟抖动等问题难以实时感知和预测,影响用户体验。

  • 故障定位困难:跨地域、跨VPC、跨账号、跨产品的网络链路问题排查耗时长,依赖经验,定位效率低。

  • 安全风险加剧:攻击面扩大,安全策略(如安全组、NACL)配置错误或变更管理不当,可能导致安全漏洞。

  • 运维成本高企:依赖大量人力进行日常巡检、故障响应和配置管理,效率低下,人力成本高。

云网络智能运维解决方案旨在帮助客户更好地上好云用好云管好云。该解决方案重点在于指导客户在日常运维管理中,对网络指标进行监控,对网络风险问题进行识别,针对网络异常进行分析定界解决。同时,对业务迭代引入的网络需求进行升级改造和网络性能优化。

2 目标客户

本方案适用于以下类型的客户:

  • 大型企业及集团客户:拥有复杂的混合云/多云架构、多地域部署、大量VPC和网络资源,对网络稳定性、安全性和运维效率要求极高。

  • 互联网与科技公司:业务迭代快,流量波动大,对网络性能、弹性、故障自愈能力有强需求,追求DevOps/NetOps效率。

  • 金融、政务、医疗等关键行业客户:对网络的高可用性、安全合规性要求极为严格,需要满足严格的审计和监管要求。

  • 正在经历数字化转型的传统企业:从传统IDC向云迁移,需要快速建立现代化的网络运维能力。

  • IT/网络运维团队:希望借助智能化工具提升运维效率、降低故障率、释放人力专注于更高价值工作的团队。

3 方案介绍

云网络智能运维解决方案推荐给客户进行云网络运维的四大手段是:

  • 掌握“大盘”汇聚和洞察全局

  • 依靠“告警”感知和定位问题

  • 日常“巡检”挖掘和消除隐患

  • 运用“工具”分析和解决根因

3.1 掌握“大盘”汇聚和洞察全局

image.png

网络大盘(Network Dashboard)不仅仅是“数据可视化看板”,它是一个集监控、分析、决策、协同于一体的云网络运营中枢。大盘应该遵循以下指导设计:

  1. 网络大盘为特定角色解决特定问题提供数据支撑:

  • 业务负责人:关注整体可用性、SLA 达成、成本趋势。

  • 运维人员:关注故障告警、链路状态、性能异常。

  • 架构团队:关注拓扑结构、容量使用、扩展瓶颈。

建议:为不同角色设计不同视图,如“运维视图”、“业务视图”、“架构视图”。

  1. 按照网络架构分层展示,避免信息过载:

  • 公网接入层:EIP、公网带宽包,NAT等。

  • 应用交付层:CLB/ALB/NLB/GA等。

  • 全球组网层:VPN、专线、TR、CEN等。

建议:1)支持“网络产品总览-具体产品总览-单一实例详情”三级自上而下钻取,从整体到细节。2)相关指标放在同一个图表中展示,提升展示信息密度。3)良好的命名、资源组划分、标签有利于快速定位问题。

  1. 聚焦关键业务和指标,重要指标放在大盘上,其它指标日常不用关注,只需要在相关问题发生时分析使用:

  • 流量:出入带宽峰值、流量趋势等。

  • 可用性:SLB 健康检查通过率,专线/VPN/跨地域链路状态等。

  • 性能:时延,响应时间,带宽使用率,丢包率等。

  • 成本:EIP数量、CDT带宽费用、网元CU费用等。

建议:在大盘中使用“红/黄/绿”三色标识健康状态

3.2 依靠“告警”感知和定位问题

image.png

  • 事件订阅机制:对影响业务的事件设置订阅并制定告警机制。此步骤有助于第一时间发现系统异常、性能问题或安全威胁。

  • 严重告警即时响应流程:制定严格的应急响应计划,特别是对于标记为“严重”的告警,需要有明确的预案,并指定专人负责协调处理,直到问题完全解决。

  • 定期查看事件中心:设定固定的周期性检查计划,用于审查事件中心中的历史记录。通过对这些数据的分析,可以提前识别出趋势性问题或慢性隐患,采取预防性措施防止服务中断。

3.3 依靠“巡检”挖掘和消除隐患

image

在构建和维护网络架构时,掌握巡检能力是至关重要的一步。首先,我们需要识别并理解各种潜在的风险,包括稳定性风险、安全性风险、性能风险以及成本浪费。稳定性风险主要体现在主备配置错误上,这可能导致在故障发生时无法顺利切换,进而影响系统的正常运行;同时,资源部署不合理也会导致爆炸半径大,增加系统崩溃的可能性。安全性风险则涉及网络ACL配置漏洞和安全组权限过大等问题,这些问题可能会给系统带来安全隐患,使网络环境变得脆弱不堪。性能风险通常表现为网络路径绕行,这会增加数据传输的延迟,而流量多次超限则表明系统可能需要进行扩容以满足日益增长的需求。此外,成本浪费也是一个不容忽视的问题,资源利用率低和多种计费方式选择错误都会导致不必要的开支。

为了有效应对这些风险,我们需要定期执行巡检。通过NIS控制台,我们可以进行网络巡检,查看历史报告,并根据需要重新发起巡检。这一过程稍后会生成详细的巡检报告,建议每周执行一次,以便及时发现并处理潜在问题。一旦发现问题,我们应立即进入隐患处理阶段。在这一阶段,我们可以通过NIS控制台和网络巡检工具来查看详细报告,获取网络优化建议,并根据这些建议采取相应的措施来处理隐患。例如,对于稳定性风险,我们可以优化主备配置和资源部署;对于安全性风险,我们可以修补网络ACL配置漏洞和调整安全组权限;对于性能风险,我们可以优化网络路径和进行必要的扩容;而对于成本浪费,我们可以提高资源利用率和选择更合适的计费方式。

3.4 掌握“工具”分析和解决根因

image

NIS:Network Intelligent Service,是阿里云云网络基于多年大规模网络运维实践和技术积累,面向复杂网络场景推出的一款智能网络服务产品。它集网络测量、诊断、优化于一体,提供端到端的网络可观测性与智能分析能力,帮助用户快速定位跨地域、跨网络域的连通性、性能与故障问题,实现“看得清、查得快、管得住”的云网络运维体验。NIS提供了丰富的工具用于分析和解决根因,当大盘观察异常、告警发生时、巡检报告给出优化建议时,你可以使用NIS提供的工具完成以下功能:

  • 实例诊断:检测实例的配置与运行状态,并能根据诊断的异常项提供智能修复方案。

  • 路径分析:端到端分析网络连通性,诊断网络配置错误引起的连接问题。当目的地不可到达时,识别阻塞位置和原因。保持流量分析功能的启用状态,基于吞吐、丢包、时延、用户分布等数据对网络流量进行不间断监控和深入分析,有利于运维人员基于流量情况对业务架构做优化。

  • 流量分析:监控网络中实时流量以及历史流量的流量数据和流量监控指标,帮助了解网络应用的性能和负载情况。

  • 网络洞察:分析业务单元流量的实时运行状况,帮助您及时感知业务网络异常,并提供网络质量评估数据和事件影响面分析。

  • 网络拓扑:快速了解阿里云云上网络架构,进行网络配置验证和云网络资源统一运维。

  • 性能观测:提供阿里云内及互联网间的网络平均时延数据,为搭建服务时选择地域或可用区提供参考。

4 产品组合

4.1 监控平台比较

监控平台种类繁多。我们按照平台生态分为三大类:阿里云云监控、Prometheus监控、其它监控平台(如Zabbix、ElasticSearch+Logstash+Kibana、OpenTelemetry),五小类:阿里云基础云监控、阿里云企业云监控(归属阿里云云监控大类)、ARMS Prometheus+Grafana、自有Prometheus+Grafana(归属Prometheus)、其它监控平台(归属其它监控平台大类)。比较如下:

优势

劣势

说明

阿里云基础云监控

  • 开箱即用,无需配置

  • 基础指标(ECS、RDS、SLB)免费

  • 界面简洁

  • 不支持跨地域聚合

  • 不支持配置文件,自动化能力弱

  • 自定义指标支持有限

  • 可视化能力弱(图表类型少)

  • 无法接入非阿里云资源

  • 单地域部署

  • 以阿里云服务为主

  • 场景简单

阿里云企业云监控

  • 持跨地域资源聚合

  • 可创建高级自定义大盘

  • 支持更多云产品指标

  • 支持批量监控数百实例

  • 不支持配置文件,自动化能力弱

  • 不支持 PromQL 等高级查询语言

  • K8s监控能力有限

  • 无法接入非阿里云资源

  • 以阿里云服务为主

  • 多地域部署

ARMS Prometheus+Grafana

  • 原生集成 Grafana,可视化强大;支持 PromQL,查询灵活

  • 深度集成 K8s

  • 支持 Remote Write,可聚合多个集群

  • 支持自定义业务指标(SDK/Exporter)

  • 统一监控,支持多云/混合云场景

  • 学习成本较高

  • 成本按数据写入量和存储时长计费

  • 建议作为默认选择

自有Prometheus+Grafana

  • 原生集成 Grafana,可视化强大;支持 PromQL,查询灵活

  • 深度集成 K8s

  • 支持自定义业务指标(SDK/Exporter)

  • 统一监控,支持多云/混合云场景

  • 学习成本较高

  • 已有自有 Prometheus 部署

其它监控平台

  • 灵活性极高,可定制化

  • 统一监控,支持多云/混合云场景

  • 架构复杂,集成难度大

  • 学习和维护成本极高

  • 需要专业团队支持

  • 与阿里云原生服务集成困难

  • 已有其它监控平台;需要统一监控 + 日志 + 链路追踪

  • 需要自研阿里云数据采集插件

另外一方面,用户同时使用的监控平台碎片化非常严重。在运维方面投入不足的团队会被动地使用监控平台导致此结果;有专业运维团队的倾向于统一监控平台,但仍无法避免碎片化。据Observability Survey 2024的数据显示,70%的团队使用了4种以上不同的监控平台。Prometheus+Grafana是当前云原生生态的事实标准,社区活跃、文档丰富、配置方便、功能强大、集成度高,适合绝大多数现代应用监控场景。

阿里云的 ARMS Prometheus 是一款托管的 Prometheus + Grafana 服务,免去用户自行部署、运维和扩缩容监控系统的复杂性,开箱即用,支持大规模指标采集、存储与可视化分析。它深度集成阿里云生态系统,可无缝对接 ECS、容器服务 ACK、Serverless、应用实时监控服务 ARMS Application 等各类云资源与应用,实现全栈式可观测性。同时,ARMS Prometheus 提供强大的告警能力,支持基于 PromQL 的灵活告警规则配置,可对指标异常(如延迟升高、错误率上升、资源水位超限等)进行精准检测。告警规则支持多级阈值、持续时间判断(for 条件)、分组与去重,有效避免误报和告警风暴。告警触发后,可通过钉钉、短信、邮件、Webhook 等多种渠道实时通知值班人员,并与阿里云告警中心和事件中心联动,实现告警生命周期的统一管理与响应闭环,帮助团队快速发现并处置潜在风险,保障业务稳定运行。我们将它作为最佳实践进行推荐。

4.2 事件平台比较

NIS和云监控均提供“告警”事件的产生能力,两者的差异如下:

云监控

NIS

范围

全部云产品

网络产品

类型

系统预定义事件+用户配置阈值

系统预定义事件

需要配置

产生逻辑

系统预定义事件:超规格、中断、异常等关键事件

用户配置阈值:根据客户对某个Metric对系统产生影响的判断,由客户自行配置产生告警

只有系统预定义事件

自定义阈值

全面性

通知手段

支持

手机、邮箱、钉钉、飞书、企业微信

SLS、轻量消息队列、函数计算

不支持

可以将NIS的事件推送到云监控事件,再走云监控的通知手段

  • 典型的云监控告警是:客户配置当某EIP的实时带宽达到5Gbps,打电话给应用的运维工程师。

  • 典型的NIS告警:当某EIP带宽包达到规格的95%时,产生NIS事件。用户可以通过云监控通知应用的运维工程师,或者通过API轮询到该事件并进行自动化处理。

云监控支持全部云产品的系统事件与用户自定义阈值告警,具备完整的告警配置能力(如 Metric 阈值、持续时间判断、多级告警等),而 NIS 仅提供网络产品的系统预定义事件,且不支持用户配置阈值。因此,云监控更适合承担企业级统一告警中心的角色。

5 应用场景

核心应用场景包括:

  • 网络性能监控与优化。

  • 异常检测与智能告警。

  • 故障快速定位与根因分析。

  • 资源利用率分析与成本优化。

  • 自动化网络运维。

  • 多云/混合云网络统一管理。

6 配置参考手册

6.1 大盘配置参考

以下按照网络架构分层介绍对云网络的典型大盘设计。

6.1.1 公网业务大盘

弹性公网IP,即EIP,是阿里云产品提供公网访问的标准形态,多数网络服务支持绑定用户EIP。但是由于历史原因,部分产品也支持非用户EIP形态的公网服务,请参考以下表格及建议。

产品

公网类型

建议

ECS

  • EIP

  • 公网IP

统一使用EIP

  • ECS使用EIP

  • CLB使用私网CLB+EIP形态

CLB

  • EIP:私网CLB支持绑定EIP对公网提供服务

  • CLB公网IP:公网CLB

ALB/NLB/NAT

  • EIP

VPN

公网VPN使用非用户EIP

单独设置大盘

GA

GA使用非用户EIP

在统计指标上,EIP上的出入带宽/流量总是表示在该EIP上实际传输带宽/流量。而根据EIP+“是否加入共享带宽”+“是否开通CDT”的组合,对利用率/丢包/账单的对象是不一样,请参考以下表格选择。

产品

组合

说明

观察对象

是否加入

共享带宽cbwp

是否开通

CDT

EIP

  • 带宽限速粒度:单EIP。

  • 计费:单EIP。

  • 利用率/限速丢包:在EIP

  • 账单项:在EIP

EIP

  • 带宽限速粒度:单EIP。

  • 计费:CDT。

  • 利用率/限速丢包:在EIP

  • 账单项:在CDT

EIP

  • 带宽限速粒度:cbwp。EIP原本的带宽峰值无效,与共享带宽实例的带宽峰值相同。

  • 计费:cbwp。

  • 利用率/限速丢包:在cbwp

  • 账单项:在cbwp

EIP

  • 带宽限速粒度:cbwp。EIP原本的带宽峰值无效,与共享带宽实例的带宽峰值相同。

  • 计费:cdt。

  • 利用率/限速丢包:在cbwp

  • 账单项:在CDT

公网大盘设计参考
  1. EIP大盘,支持按照地域/资源组/实例ID/IP过滤部分实例。实例展示表格支持超链接到实例监控页。

面板名称

类型

指标

坐标轴

说明

EIP速率总和

时间序列

入向速率:总和

出向速率:总和

限速丢包速率:总和

>100标红

EIP带宽利用率

时间序列

入向带宽利用率:最大、最小、平均

>50标黄

>80标红

出向带宽利用率:最大、最小、平均

EIP限速丢包TopN实例

表格

限速丢包速率

>100标红

EIP入向带宽利用率TopN实例

表格

入向带宽利用率

>50标黄

>80标红

EIP出向带宽利用率TopN实例

表格

出向带宽利用率

EIP入速率TopN实例

表格

入速率

EIP出速率TopN实例

表格

出速率

  1. 共享带宽大盘,支持按照地域/资源组/实例ID/IP过滤部分实例。实例展示表格支持超链接到实例监控页。

面板名称

类型

指标

坐标轴

说明

EBWP速率总和

时间序列

入向速率:总和

出向速率:总和

限速丢包速率:总和

>100标红

EBWP带宽利用率

时间序列

入向带宽利用率:最大、最小、平均

>50标黄

>80标红

出向带宽利用率:最大、最小、平均

EBWP限速丢包TopN实例

表格

限速丢包速率 > 0

>100标红

EBWP入向带宽利用率TopN实例

表格

入向带宽利用率 > 30

>50标黄

>80标红

EBWP出向带宽利用率TopN实例

表格

出向带宽利用率 > 30

EBWP入速率TopN实例

表格

入速率

EBWP出速率TopN实例

表格

出速率

6.1.2 网元业务大盘

CLB大盘设计参考

CLB的监控指标有54+项,我们按照横向维度和纵向维度进行分类。

  • 横向维度可以分为CLB监听粒度CLB某个实例粒度。多数统计指标都有监听粒度和实例粒度两个版本,但是1)资源利用率相关的指标只有实例粒度的;2)健康检查相关的指标只有监听粒度的。

    • 监听粒度的监控指标名称中不包含Instance,比如AliyunSlb_ActiveConnectionCLB某个监听的活跃连接数统计。

    • 实例粒度的监控指标名称中包含Instance,比如AliyunSlb_InstanceActiveConnectionCLB整体的活跃连接数统计之和。

  • 纵向维度可以分为四层和七层两大类,每类各分四个小类。

    • 四层的统计指标分为健康检查、资源利用率、流量、连接数四类。

    • 七层的统计指标分为资源利用率、响应时间、状态码、其它四类。

分类

监听粒度

实例粒度

四层

健康检查

AliyunSlb_HealthyServerCount

AliyunSlb_UnhealthyServerCount

资源利用率

AliyunSlb_InstanceNewConnectionUtilization - 实例的新建连接利用率

AliyunSlb_InstanceMaxConnectionUtilization - 实例的最大连接利用率

AliyunSlb_InstanceTrafficRXUtilization - 实例的接收流量利用率

AliyunSlb_InstanceTrafficTXUtilization - 实例的发送流量利用率

流量

AliyunSlb_TrafficRXNew - 新接收流量

AliyunSlb_TrafficTXNew - 新发送流量

AliyunSlb_DropTrafficRX - 接收端丢弃的流量

AliyunSlb_DropTrafficTX - 发送端丢弃的流量

AliyunSlb_PacketRX - 接收数据包数

AliyunSlb_PacketTX - 发送数据包数

AliyunSlb_DropPacketRX - 接收端丢弃的数据包数

AliyunSlb_DropPacketTX - 发送端丢弃的数据包数

AliyunSlb_InstanceTrafficRX - 实例的接收流量

AliyunSlb_InstanceTrafficTX - 实例的发送流量

AliyunSlb_InstanceDropTrafficRX - 实例的接收端丢弃流量

AliyunSlb_InstanceDropTrafficTX - 实例的发送端丢弃流量

AliyunSlb_InstancePacketRX - 实例的接收数据包数

AliyunSlb_InstancePacketTX - 实例的发送数据包数

AliyunSlb_InstanceDropPacketRX - 实例的接收端丢弃数据包数

AliyunSlb_InstanceDropPacketTX - 实例的发送端丢弃数据包数

连接数

AliyunSlb_ActiveConnection - 当前活动连接数

AliyunSlb_InactiveConnection - 非活动连接数

AliyunSlb_NewConnection - 新建连接数

AliyunSlb_MaxConnection - 最大连接数

AliyunSlb_DropConnection - 被丢弃的连接数

AliyunSlb_InstanceActiveConnection - 实例的当前活动连接数

AliyunSlb_InstanceInactiveConnection - 实例的非活动连接数

AliyunSlb_InstanceNewConnection - 实例的新建连接数

AliyunSlb_InstanceMaxConnection - 实例的最大连接数

AliyunSlb_InstanceDropConnection - 实例的被丢弃连接数

七层

利用率

AliyunSlb_InstanceQpsUtilization - 实例的QPS利用率

响应时间

AliyunSlb_Rt - 响应时间

AliyunSlb_InstanceRt - 实例的响应时间

AliyunSlb_InstanceUpstreamRt - 实例的后端响应时间

状态码

AliyunSlb_StatusCode2xx - HTTP状态码为2xx的请求数

AliyunSlb_StatusCode3xx - HTTP状态码为3xx的请求数

AliyunSlb_StatusCode4xx - HTTP状态码为4xx的请求数

AliyunSlb_StatusCode5xx - HTTP状态码为5xx的请求数

AliyunSlb_StatusCodeOther - 其他HTTP状态码请求数

AliyunSlb_UpstreamCode4xx - 后端返回4xx状态码的次数

AliyunSlb_UpstreamCode5xx - 后端返回5xx状态码的次数

AliyunSlb_InstanceStatusCode2xx - 实例的HTTP状态码为2xx的请求数

AliyunSlb_InstanceStatusCode3xx - 实例的HTTP状态码为3xx的请求数

AliyunSlb_InstanceStatusCode4xx - 实例的HTTP状态码为4xx的请求数

AliyunSlb_InstanceStatusCode5xx - 实例的HTTP状态码为5xx的请求数

AliyunSlb_InstanceStatusCodeOther - 实例的其他HTTP状态码请求数

AliyunSlb_InstanceUpstreamCode4xx - 实例的后端返回4xx状态码的次数

AliyunSlb_InstanceUpstreamCode5xx - 实例的后端返回5xx状态码的次数

其它

AliyunSlb_Qps - 每秒查询率

AliyunSlb_InstanceQps - 实例的每秒查询率(QPS)

CLB大盘设计参考

CLB大盘,支持按照地域/资源组/实例ID/实例名称过滤部分实例。实例展示表格支持超链接跳转至实例监控页。

由于CLB指标维度较多,建议TopN部分的维度选择为:

  • 利用率部分统一为CLB实例。

  • 如果CLB实例承载单一业务,则建议TopN展示CLB实例。

  • 如果CLB实例承载混合业务,则建议TopN展示CLB监听。

面板名称

类型

指标

坐标轴

说明

CLB速率总和

时间序列

入向速率:总和

出向速率:总和

入向丢弃速率:总和

>100标红

出向丢包速率:总和

>100标红

CLB连接总和

时间序列

活跃连接:总和

非活跃连接:总和

新建连接:总和

最大连接:总和

丢弃连接:总和

设置标黄和标红

健康检查

时间序列

健康服务器:总和

标绿

不健康服务器:总和

设置标黄标红

CLB实例利用率

时间序列

新建连接利用率:最大、最小、平均

>50标黄

>80标红

最大连接利用率:最大、最小、平均

入带宽利用率:最大、最小、平均

出带宽利用率:最大、最小、平均

七层QPS利用率:最大、最小、平均

七层QPS

时间序列

QPS:总和

七层响应时间

时间序列

响应时间:最大、最小、平均

设置标黄标红

后端响应时间:最大、最小、平均

七层状态码统计

时间序列

2xx:总和

3xx:总和

4xx:总和

设置标黄标红

5xx:总和

设置标黄标红

Other:总和

Upstream4xx:总和

设置标黄标红

Upstream5xx:总和

设置标黄标红

入向速率TopN

表格

入向速率

出向速率TopN

表格

出向速率

入向丢弃速率TopN

表格

入向丢弃速率 > 0

标红

出向丢弃速率TopN

表格

出向丢弃速率 > 0

标红

最大连接TopN

表格

新建连接TopN

表格

丢弃连接TopN

表格

丢弃连接 > 0

标红

不健康服务器TopN

表格

不健康服务器 > 0

标红

高利用率实例

表格

新建连接利用率 > 30 || 最大连接利用率 > 30 || 入带宽利用率 > 30 || 出带宽利用率 || QPS利用率 > 30

>50标黄

>80标红

响应时间TopN

表格

响应时间 > 平均值 * 2

动态阈值标记

QPS TopN

表格

QPS

4xx TopN

表格

4xx

5xx TopN

表格

5xx

NLB大盘设计参考

NLB的监控指标有45+项,我们按照横向维度和纵向维度进行分类。

  • 横向维度可以分为NLB某个监听粒度、NLB某个VIP粒度和NLB实例粒度。多数统计指标都有监听粒度、VIP粒度、实例粒度三个版本。

    • 监听粒度的监控指标名称中不包含InstanceVip,比如AliyunNlb_ActiveConnectionNLB某个监听的活跃连接数统计。

    • VIP粒度的监控指标名称中包含Vip,比如AliyunNlb_VipActiveConnectionNLB某个VIP的活跃连接数统计。

    • 实例粒度的监控指标名称中包含Instance,比如AliyunNlb_InstanceActiveConnectionNLB整体的活跃连接数统计之和。

  • 纵向维度可以分为健康检查、流量、连接数、其它四大类。

分类

监听粒度

实例粒度

VIP粒度

健康检查

AliyunNlb_ListenerHeathyServerCount - 健康服务器数量

AliyunNlb_ListenerUnhealthyServerCount - 不健康服务器数量

AliyunNlb_NlbInstanceHeathyServerCount - 负载均衡实例健康服务器数量

AliyunNlb_InstanceUnhealthyServerCount - 实例不健康服务器数量

NA

流量

AliyunNlb_TrafficRXNew - 接收流量

AliyunNlb_TrafficTXNew - 发送流量

AliyunNlb_ListenerPacketRX - 接收数据包数

AliyunNlb_ListenerPacketTX - 发送数据包数

AliyunNlb_DropTrafficRX - 接收丢弃流量

AliyunNlb_DropTrafficTX - 发送丢弃流量

AliyunNlb_DropPacketRX - 接收丢弃数据包数

AliyunNlb_DropPacketTX - 发送丢弃数据包数

AliyunNlb_InstanceTrafficRX - 实例接收流量
AliyunNlb_InstanceTrafficTX - 实例发送流量
AliyunNlb_InstancePacketRX - 实例接收数据包数
AliyunNlb_InstancePacketTX - 实例发送数据包数
AliyunNlb_InstanceDropTrafficRX - 实例接收丢弃流量
AliyunNlb_InstanceDropTrafficTX - 实例发送丢弃流量
AliyunNlb_InstanceDropPacketRX - 实例接收丢弃数据包数
AliyunNlb_InstanceDropPacketTX - 实例发送丢弃数据包数

代码模式

AliyunNlb_VipTrafficRX - VIP接收流量
AliyunNlb_VipTrafficTX - VIP发送流量
AliyunNlb_VipPacketRX - VIP接收数据包数
AliyunNlb_VipPacketTX - VIP发送数据包数
AliyunNlb_VipDropTrafficRX - VIP接收丢弃流量
AliyunNlb_VipDropTrafficTX - VIP发送丢弃流量
AliyunNlb_VipDropPacketRX - VIP接收丢弃数据包数
AliyunNlb_VipDropPacketTX - VIP发送丢弃数据包数

代码模式

连接数

AliyunNlb_NewConnection - 新建连接数

AliyunNlb_MaxConnection - 最大连接数

AliyunNlb_DropConnection - 丢弃连接数

AliyunNlb_ActiveConnection - 活动连接数

AliyunNlb_InactiveConnection - 非活动连接数

AliyunNlb_InstanceNewConnection - 实例新建连接数

AliyunNlb_InstanceMaxConnection - 实例最大连接数

AliyunNlb_InstanceDropConnection - 实例丢弃连接数

AliyunNlb_InstanceActiveConnection - 实例活动连接数

AliyunNlb_InstanceInactiveConnection - 实例非活动连接数

AliyunNlb_VipNewConnection - VIP新建连接数

AliyunNlb_VipMaxConnection - VIP最大连接数

AliyunNlb_VipDropConnection - VIP丢弃连接数

AliyunNlb_VipActiveConnection - VIP活动连接数

AliyunNlb_VipInactiveConnection - VIP非活动连接数

其它

NA

NA

AliyunNlb_VipClientResetPacket - VIP客户端重置数据包数

AliyunNlb_RealServerResetPacket - VIP服务器重置数据包数

NLB大盘设计参考

NLB大盘,支持按照地域/资源组/实例ID/实例名称过滤部分实例。实例展示表格支持超链接到实例监控页。

由于NLB指标维度较多,建议TopN部分的维度选择为:

  • 如果NLB实例承载单一业务,则建议TopN展示NLB实例。

  • 如果NLB实例承载混合业务,则建议TopN展示NLB监听。

  • 其它维度信息用于问题分析,不在大盘展示。

面板名称

类型

指标

坐标轴

说明

NLB速率总和

时间序列

入向速率:总和

出向速率:总和

入向丢弃速率:总和

>100标红

出向丢包速率:总和

>100标红

NLB连接总和

时间序列

活跃连接:总和

非活跃连接:总和

新建连接:总和

最大连接:总和

丢弃连接:总和

设置标黄和标红

健康检查

时间序列

健康服务器:总和

标绿

不健康服务器:总和

设置标黄标红

Reset

时间序列

客户端重置数据包数

>100标红

服务器重置数据包数

>100标红

入向速率TopN

表格

入向速率

出向速率TopN

表格

出向速率

入向丢弃速率TopN

表格

入向丢弃速率 > 0

标红

出向丢弃速率TopN

表格

出向丢弃速率 > 0

标红

最大连接TopN

表格

新建连接TopN

表格

丢弃连接TopN

表格

丢弃连接 > 0

标红

不健康服务器TopN

表格

不健康服务器 > 0

标红

ClientReset TopN

表格

客户端重置数据包数 > 0

ServerReset TopN

表格

服务器重置数据包数 > 0

ALB大盘设计参考

ALB的监控指标有112+项,我们按照横向维度和纵向维度进行分类。

  • 横向维度可以分为ALB某个监听粒度、ALB某个VIP粒度、ALB某个规则粒度、ALB某个服务器组粒度ALB实例粒度。多数统计指标都有监听粒度、VIP粒度、实例粒度三个版本,少数指标额外提供规则粒度和服务器组粒度。

    • 监听粒度的监控指标名称中包含Listener,比如AliyunAlb_ListenerQPSALB某个监听的QPS统计。

    • VIP粒度的监控指标名称中包含Vip,比如AliyunAlb_VipQPSALB某个VIPQPS统计。

    • 规则粒度的监控指标名称中包含Rule,比如AliyunAlb_RuleQPSALB某个规则的QPS统计。

    • 服务器组粒度的监控指标名称中包含ServerGroup,比如AliyunAlb_ServerGroupQPSALB某个服务器组的QPS统计。

    • 实例粒度的监控指标名称中包含LoadBalancer,比如AliyunAlb_LoadBalancerQPSALB整体的QPS统计之和。

  • 纵向维度可以分为健康检查、流量、连接数、响应时间、状态码、其它六大类。

分类

监听粒度

实例粒度

VIP粒度

规则粒度

服务器组粒度

健康检查

AliyunAlb_ListenerHealthyHostCount

AliyunAlb_ListenerUnHealthyHostCount

AliyunAlb_LoadBalancerHealthyHostCount

AliyunAlb_LoadBalancerUnHealthyHostCount

AliyunAlb_RuleHealthyHostCount

AliyunAlb_RuleUnHealthyHostCount

AliyunAlb_ServerGroupHealthyHostCount

AliyunAlb_ServerGroupUnHealthyHostCount

流量

AliyunAlb_ListenerInBits

AliyunAlb_ListenerOutBits

AliyunAlb_LoadBalancerInBits

AliyunAlb_LoadBalancerOutBits

AliyunAlb_VipInBits

AliyunAlb_VipOutBits

连接数

AliyunAlb_ListenerActiveConnection

AliyunAlb_ListenerInactiveConnection

AliyunAlb_ListenerNewConnection

AliyunAlb_ListenerMaxConnection

AliyunAlb_ListenerRejectedConnection

AliyunAlb_ListenerUpstreamConnectionError

AliyunAlb_LoadBalancerActiveConnection

AliyunAlb_LoadBalancerInactiveConnection

AliyunAlb_LoadBalancerNewConnection

AliyunAlb_LoadBalancerMaxConnection

AliyunAlb_LoadBalancerRejectedConnection

AliyunAlb_LoadBalancerUpstreamConnectionError

AliyunAlb_VipActiveConnection

AliyunAlb_VipInactiveConnection

AliyunAlb_VipNewConnection

AliyunAlb_VipMaxConnection

AliyunAlb_VipRejectedConnection

AliyunAlb_VipUpstreamConnectionError

AliyunAlb_RuleUpstreamConnectionError

AliyunAlb_ServerGroupUpstreamConnectionError

响应时间

AliyunAlb_ListenerRequestTime

AliyunAlb_ListenerUpstreamResponseTime

AliyunAlb_LoadBalancerRequestTime

AliyunAlb_LoadBalancerUpstreamResponseTime

AliyunAlb_VipRequestTime

AliyunAlb_VipUpstreamResponseTime

AliyunAlb_RuleRequestTime

AliyunAlb_RuleUpstreamResponseTime

AliyunAlb_ServerGroupRequestTime

AliyunAlb_ServerGroupUpstreamResponseTime

状态码

AliyunAlb_ListenerHTTPCode2XX

AliyunAlb_ListenerHTTPCode3XX

AliyunAlb_ListenerHTTPCode4XX

AliyunAlb_ListenerHTTPCode5XX

AliyunAlb_ListenerHTTPCode500

AliyunAlb_ListenerHTTPCode502

AliyunAlb_ListenerHTTPCode503

AliyunAlb_ListenerHTTPCode504

AliyunAlb_ListenerHTTPCodeUpstream2XX

AliyunAlb_ListenerHTTPCodeUpstream3XX

AliyunAlb_ListenerHTTPCodeUpstream4XX

AliyunAlb_ListenerHTTPCodeUpstream5XX

AliyunAlb_LoadBalancerHTTPCode2XX

AliyunAlb_LoadBalancerHTTPCode3XX

AliyunAlb_LoadBalancerHTTPCode4XX

AliyunAlb_LoadBalancerHTTPCode5XX

AliyunAlb_LoadBalancerHTTPCode500

AliyunAlb_LoadBalancerHTTPCode502

AliyunAlb_LoadBalancerHTTPCode503

AliyunAlb_LoadBalancerHTTPCode504

AliyunAlb_LoadBalancerHTTPCodeUpstream2XX

AliyunAlb_LoadBalancerHTTPCodeUpstream3XX

AliyunAlb_LoadBalancerHTTPCodeUpstream4XX

AliyunAlb_LoadBalancerHTTPCodeUpstream5XX

AliyunAlb_VipHTTPCode2XX

AliyunAlb_VipHTTPCode3XX

AliyunAlb_VipHTTPCode4XX

AliyunAlb_VipHTTPCode5XX

AliyunAlb_VipHTTPCode500

AliyunAlb_VipHTTPCode502

AliyunAlb_VipHTTPCode503

AliyunAlb_VipHTTPCode504

AliyunAlb_RuleHTTPCodeUpstream2XX

AliyunAlb_RuleHTTPCodeUpstream3XX

AliyunAlb_RuleHTTPCodeUpstream4XX

AliyunAlb_RuleHTTPCodeUpstream5XX

AliyunAlb_RuleHTTPCodeUpstream2XXRatio

AliyunAlb_RuleHTTPCodeUpstream3XXRatio

AliyunAlb_RuleHTTPCodeUpstream4XXRatio

AliyunAlb_RuleHTTPCodeUpstream5XXRatio

AliyunAlb_ServerGroupHTTPCodeUpstream2XX

AliyunAlb_ServerGroupHTTPCodeUpstream3XX

AliyunAlb_ServerGroupHTTPCodeUpstream4XX

AliyunAlb_ServerGroupHTTPCodeUpstream5XX

其它

AliyunAlb_ListenerQPS

AliyunAlb_ListenerNonStickyRequest

AliyunAlb_ListenerUpstreamTLSNegotiationError

AliyunAlb_ListenerClientTLSNegotiationError

AliyunAlb_ListenerHTTPFixedResponse

AliyunAlb_ListenerHTTPRedirect

AliyunAlb_LoadBalancerQPS

AliyunAlb_LoadBalancerNonStickyRequest

AliyunAlb_LoadBalancerUpstreamTLSNegotiationError

AliyunAlb_LoadBalancerClientTLSNegotiationError

AliyunAlb_LoadBalancerHTTPFixedResponse

AliyunAlb_LoadBalancerHTTPRedirect

AliyunAlb_VipQPS

AliyunAlb_VipNonStickyRequest

AliyunAlb_VipUpstreamTLSNegotiationError

AliyunAlb_VipClientTLSNegotiationError

AliyunAlb_VipHTTPFixedResponse

AliyunAlb_VipHTTPRedirect

AliyunAlb_RuleQPS

AliyunAlb_RuleNonStickyRequest

AliyunAlb_RuleUpstreamTLSNegotiationError

AliyunAlb_ServerGroupQPS

AliyunAlb_ServerGroupNonStickyRequest

AliyunAlb_ServerGroupUpstreamTLSNegotiationError

ALB大盘设计参考

ALB大盘,支持按照地域/资源组/实例ID/实例名称过滤部分实例。实例展示表格支持超链接到实例监控页。

由于ALB指标维度较多,建议TopN部分的维度选择为:

  • 如果ALB实例承载单一业务,则建议TopN展示ALB实例。

  • 如果ALB实例承载混合业务,则建议TopN展示ALB监听。

  • 其它维度信息用于问题分析,不在大盘展示。

面板名称

类型

指标

坐标轴

说明

ALB速率总和

时间序列

入向速率:总和

出向速率:总和

ALB连接总和

时间序列

活跃连接:总和

非活跃连接:总和

新建连接:总和

最大连接:总和

拒绝连接:总和

设置标黄和标红

上游拒绝连接:总和

设置标黄和标红

健康检查

时间序列

健康服务器:总和

标绿

不健康服务器:总和

设置标黄标红

TLS错误

时间序列

TLS协商错误:总和

设置标黄标红

上游TLS协商错误:总和

设置标黄标红

七层QPS

时间序列

QPS:总和

七层响应时间

时间序列

响应时间:最大、最小、平均

设置标黄标红

后端响应时间:最大、最小、平均

七层状态码统计

时间序列

2xx:总和

3xx:总和

4xx:总和

设置标黄标红

5xx:总和

设置标黄标红

Upstream4xx:总和

设置标黄标红

Upstream5xx:总和

设置标黄标红

入向速率TopN

表格

入向速率

出向速率TopN

表格

出向速率

最大连接TopN

表格

新建连接TopN

表格

丢弃连接TopN

表格

丢弃连接 > 0

标红

不健康服务器TopN

表格

不健康服务器 > 0

标红

TLS协商错误TopN

表格

TLS协商错误 > 0

标红

上游TLS协商错误TopN

表格

上游TLS协商错误 > 0

标红

响应时间TopN

表格

响应时间 > 平均值 * 2

标黄标红

QPS TopN

表格

QPS

4xx TopN

表格

4xx

5xx TopN

表格

5xx

GA大盘设计参考

GA大盘,支持按照地域/资源组/实例ID/实例名称过滤部分实例。实例展示表格支持超链接到实例监控页。

面板名称

类型

指标

坐标轴

说明

前端IP速率总和

时间序列

入向速率:总和

出向速率:总和

入向丢弃速率:总和

>100标红

出向丢包速率:总和

>100标红

前端IP带宽利用率

时间序列

入向带宽利用率:最大、最小、平均

>50标黄

>80标红

出向带宽利用率:最大、最小、平均

前端IP活跃连接数总和

时间序列

活跃连接:总和

后端分组速率总和

时间序列

入向速率:总和

出向速率:总和

入向丢弃速率:总和

>100标红

出向丢包速率:总和

>100标红

后端分组带宽利用率

时间序列

入向带宽利用率:最大、最小、平均

>50标黄

>80标红

出向带宽利用率:最大、最小、平均

隧道延迟

时间序列

隧道延迟:最大、最小、平均

动态阈值标记

前端入速率TopN

表格

入速率

前端出速率TopN

表格

出速率

前端入向带宽利用率TopN

表格

入向带宽利用率 > 30

标红标黄

前端出向带宽利用率TopN

表格

出向带宽利用率 > 30

标红标黄

活跃连接数TopN

表格

活跃连接数

后端分组入向带宽利用率TopN

表格

后端分组入向带宽利用率TopN

后端分组出向带宽利用率TopN

表格

后端分组出向带宽利用率TopN

隧道延迟TopN

表格

隧道延迟

动态阈值

NAT大盘设计参考

NAT大盘,支持按照地域/资源组/实例ID/实例名称过滤部分实例。实例展示表格支持超链接跳转到实例监控页。

面板名称

类型

指标

坐标轴

说明

NAT连接数总和

时间序列

活跃连接数:总和

新建连接数:总和

丢弃活跃连接数:总和

>0标黄

>100标红

丢弃新建连接数:总和

>0标黄

>100标红

NAT连接数利用率

时间序列

活跃连接数利用率:最大,最小,平均

>50标黄

>80标红

新建连接数利用率:最大,最小,平均

速率总和

时间序列

公网侧入向速率:总和

入向出向速率差 > 阈值时标红

公网侧出向速率:总和

内网侧入向速率:总和

内网侧出向速率:总和

活跃连接数TopN实例

表格

活跃连接数

新建连接数TopN

表格

新建连接数

丢弃活跃连接数TopN

表格

丢弃活跃连接数 > 0

>0标黄

>100标红

丢弃新建连接数TopN

表格

丢弃新建连接数 > 0

>0标黄

>100标红

活跃连接数利用率TopN

表格

活跃连接数利用率 > 30

>50标黄

>80标红

新建连接数利用率TopN

表格

活跃连接数利用率 > 30

>50标黄

>80标红

入向速率TopN

表格

公网入向速率

出向速率TopN

表格

公网出向速率

6.1.3 全球组网业务大盘

高速通道-物理端口设计参考

物理端口大盘,支持按照地域/资源组/实例ID/实例名称过滤部分实例。实例展示表格支持超链接到实例监控页。

面板名称

类型

指标

坐标轴

说明

速率总和

时间序列

上云速率:总和

下云速率:总和

端口错包

时间序列

端口入向错包:总和

标黄标红

端口出向错包:总和

标黄标红

断联专线数

时间序列

端口down:计数

标红

上云速率TopN

表格

上云速率

下云速率TopN

表格

下云速率

端口入向错包TopN

表格

端口入向错包 > 0

标红

端口出向错包TopN

表格

端口出向错包 > 0

标红

断联专线实例

表格

端口down == 1

标红

高速通道-VBR大盘设计参考

VBR大盘,支持按照地域/资源组/实例ID/实例名称过滤部分实例。实例展示表格支持超链接到实例监控页。

面板名称

类型

指标

坐标轴

说明

速率总和

时间序列

上云速率:总和

下云速率:总和

限速丢包:总和

>100标红

丢包

时间序列

端口入向丢包:总和

标黄标红

端口出向丢包:总和

标黄标红

探测丢包

时间序列

探测丢包:最大、最小、平均

>0标黄

>10标红

探测时延

时间序列

探测时延:最大、最小、平均

动态阈值

上云速率TopN

表格

上云速率

下云速率TopN

表格

下云速率

限速丢包TopN

表格

限速丢包 > 0

标红

端口入向丢包TopN

表格

端口入向丢包 > 0

标红

端口出向错包TopN

表格

端口出向丢包 > 0

标红

探测丢包TopN

表格

探测丢包 > 0

>0标黄

>10标红

探测时延TopN

表格

探测时延

ECR大盘设计参考

ECR大盘,支持按照地域/资源组/实例ID/实例名称过滤部分实例。实例展示表格支持超链接到实例监控页。

面板名称

类型

指标

坐标轴

说明

速率总和

时间序列

入向速率:总和

出向速率:总和

跨域限速丢包速率总和

时间序列

限速丢包比特速率:总和

标黄标红

限速丢包报文速率:总和

标黄标红

入向速率TopN

表格

入向速率

出向速率TopN

表格

出向速率

跨域速率TopN

表格

跨域速率

跨域限速TopN

表格

限速丢包 > 0

标红

VPN大盘设计参考

VPN大盘,支持按照地域/资源组/实例ID/实例名称过滤部分实例。实例展示表格支持超链接到实例监控页。

面板名称

类型

指标

坐标轴

说明

速率总和

时间序列

VPN网关上云速率:总和

IPSEC连接上云速率:总和

VPN网关下云速率:总和

IPSEC连接下云速率:总和

VPN网关利用率

时间序列

上云带宽利用率:最大、最小、平均

标黄标红

下云带宽利用率:最大、最小、平均

标黄标红

在线SSL客户端数

时间序列

SSL客户端数:总和

上云带宽利用率TopN

表格

上云带宽利用率 > 30

>50标黄

>80标红

下云带宽利用率TopN

表格

下云带宽利用率 > 30

>50标黄

>80标红

VPN网关上云速率TopN

表格

VPN网关上云速率

VPN网关下云速率

表格

VPN网关下云速率

IPSEC连接上云速率

表格

IPSEC连接上云速率

IPSEC连接下云速率

表格

IPSEC连接下云速率

TR大盘设计参考

TR跨域大盘,支持按照地域/资源组/实例ID/实例名称过滤部分实例。实例展示表格支持超链接到实例监控页。

面板名称

类型

指标

坐标轴

说明

TR流量

时间序列

入向速率:总和

入向出向速率差 > 阈值时标红

出向速率:总和

黑洞丢弃速率:总和

无路由丢弃速率:总和

Attachment连接流量

时间序列

入向速率:总和

入向出向速率差 > 阈值时标红

出向速率:总和

黑洞丢弃速率:总和

TR入流量TopN

表格

TR入向速率

TR出流量TopN

表格

TR出向速率

TR黑洞丢弃TopN

表格

TR黑洞丢弃速率

TR无路由丢弃TopN

表格

TR无路由丢弃速率

Attachment连接入流量TopN

表格

Attachment连接入流量

Attachment连接出流量TopN

表格

Attachment连接出流量

Attachment连接丢弃TopN

表格

Attachment连接黑洞丢弃速率

CEN跨域设计参考

CEN跨域大盘,支持按照地域/资源组/实例ID/实例名称过滤部分实例。实例展示表格支持超链接到实例监控页。

面板名称

类型

指标

坐标轴

说明

CEN流量

时间序列

区域出速率:总和

出向速率差 > 阈值时标红

大区出速率:总和

带宽包平均出速率:总和

微突发提示:

  • 当峰值/平均>3时,标黄

  • 当峰值/平均>10时,标红

带宽包峰值出速率:总和

区域限速丢包速率:总和

>100kbps标红

CEN利用率

时间序列

区域利用率:最大、最小、平均

>50标黄

>80标红

大区利用率:最大、最小、平均

>50标黄

>80标红

带宽包平均利用率:最大、最小、平均

>50标黄

>80标红

带宽包峰值利用率:最大、最小、平均

>50标黄

>80标红

CEN QoS流量

时间序列

QoS出速率:总和

QoS限速丢包速率:总和

>100kbps标红

CEN QoS利用率

时间序列

QoS平均利用率:最大、最小、平均

>50标黄

>80标红

QoS峰值利用率:最大、最小、平均

>50标黄

>80标红

区域出速率TopN

表格

地域出速率

区域利用率TopN

表格

区域利用率

区域限速丢包速率TopN

表格

区域限速丢包速率

QoS出速率TopN

表格

QoS出速率

QoS峰值利用率TopN

表格

QoS峰值利用率

QoS限速丢包速率TopN

表格

QoS限速丢包速率

6.2 监控配置参考

6.2.1 公网服务监控配置参考

对于EIP后面挂自建网关提供公网服务入口,请参考以下建议对公网入口的EIP进行云监控的告警规则配置:

监控对象

告警级别

监控指标和条件

EIP

Info

当以下某个条件发生时:

  • 流入带宽使用率 > 30%

  • 流出带宽使用率 > 30%

Warn

当以下某个条件发生时:

  • 流入带宽使用率 > 50%

  • 流出带宽使用率 > 50%

Critical

当以下某个条件发生时:

  • 流入带宽使用率 > 85%

  • 流出带宽使用率 > 85%

共享带宽

Info

当以下某个条件发生时:

  • 流入带宽使用率 > 30%

  • 流出带宽使用率 > 30%

Warn

当以下某个条件发生时:

  • 流入带宽使用率 > 50%

  • 流出带宽使用率 > 50%

Critical

当以下某个条件发生时:

  • 流入带宽使用率 > 85%

  • 流出带宽使用率 > 85%

CDT

Info

当以下某个条件发生时:

  • 流入带宽使用率 > 30%

  • 流出带宽使用率 > 30%

Warn

当以下某个条件发生时:

  • 流入带宽使用率 > 50%

  • 流出带宽使用率 > 50%

Critical

当以下某个条件发生时:

  • 流入带宽使用率 > 85%

  • 流出带宽使用率 > 85%

  • 入方向限速丢包速率 > 10

  • 出方向限速丢包速率 > 10

当带宽负载超过30%时,系统进入高负载状态,业务可能出现访问缓慢、偶发超时等SLA降级的行为。建议进行容量评估考虑扩容。

当带宽负载超过50%时,在上一个等级的基础上,多AZ容灾架构失效,一旦发生某个AZ的服务中断,则剩余的AZ无法承载全部的业务。建议立即进行扩容。

当带宽负载超过85%时,在上一个等级的基础上,系统负载严重超过系统设计。除了立即扩容外,还应该考虑是否存在业务发展超出预期、安全攻击等超出预期的行为,优化系统设计。

6.2.2 网元服务监控配置参考

CLB/NBL/ALB

对于CLB/NLB/ALB提供公网服务入口,除了参考上一个小节配置公网入口的监控外,请参考以下建议对CLB/NLB/ALB进行云监控的告警规则配置:

监控对象

告警级别

监控指标和条件

CLB

Info

当实例维度以下某个条件发生时:

  • 七层实例QPS使用率 > 30%

  • 实例新建连接数使用率 > 30%

  • 实例最大连接数使用率 > 30%

  • 实例网络流入带宽使用率 > 30%

  • 实例网络流出带宽使用率 > 30%

  • 实例每秒丢失连接数 > X,具体值需要按实际调整,参考设置为峰值的2

  • 七层实例每秒UpstreamCode5xx数量 > X,具体值需要按实际调整,参考设置为QPS峰值的0.1%

  • 七层监听RT > X,具体值需要按实际调整,参考设置为峰值的2

port维度以下某个条件发生时:

  • 健康检查后端健康ECS实例个数 < X,具体值需要按实际调整,建议设置为承担峰值业务所需要的最小后端ECS实例数 * 0.3

  • 七层转发规则健康检查后端健康ECS实例个数 < X,具体值需要按实际调整,建议设置为承担峰值业务所需要的最小后端ECS实例数 * 0.3

Warn

当实例维度以下某个条件发生时:

  • 七层实例QPS使用率 > 50%

  • 实例新建连接数使用率 > 50%

  • 实例最大连接数使用率 > 50%

  • 实例网络流入带宽使用率 > 50%

  • 实例网络流出带宽使用率 > 50%

  • 实例每秒丢失连接数 > X,具体值需要按实际调整,参考设置为峰值的5倍,或者使用云监控智能阈值

  • 七层实例每秒UpstreamCode5xx数量 > X,具体值需要按实际调整,参考设置为QPS峰值的0.5%,或者使用云监控智能阈值

  • 七层监听RT > X,具体值需要按实际调整,参考设置为峰值的5倍,或者使用云监控智能阈值

port维度以下某个条件发生时:

  • 健康检查后端异常ECS实例个数 > X,具体值需要按实际调整,建议设置为后端应用最大并发发布台数

  • 七层转发规则健康检查后端异常ECS实例个数 > X,具体值需要按实际调整,建议设置为后端应用最大单次最大发布批次

  • 健康检查后端健康ECS实例个数 < X,具体值需要按实际调整,建议设置为承担峰值业务所需要的最小后端ECS实例数 * 0.5

  • 七层转发规则健康检查后端健康ECS实例个数 < X,具体值需要按实际调整,建议设置为承担峰值业务所需要的最小后端ECS实例数 * 0.5

Critical

当实例维度以下某个条件发生时:

  • 七层实例QPS使用率 > 85%

  • 实例新建连接数使用率 > 85%

  • 实例最大连接数使用率 > 85%

  • 实例网络流入带宽使用率 > 85%

  • 实例网络流出带宽使用率 > 85%

  • 实例每秒丢失连接数 > X,具体值需要按实际调整,参考设置为峰值的10

  • 七层实例每秒UpstreamCode5xx数量 > X,具体值需要按实际调整,参考设置为QPS峰值的1%

  • 七层监听RT > X,具体值需要按实际调整,参考设置为峰值的10

port维度以下某个条件发生时:

  • 健康检查后端异常ECS实例个数 > X,具体值需要按实际调整,建议设置为后端应用最大并发发布台数 * 2

  • 七层转发规则健康检查后端异常ECS实例个数 > X,具体值需要按实际调整,建议设置为后端应用最大单次最大发布批次 * 2

  • 健康检查后端健康ECS实例个数 < X,具体值需要按实际调整,建议设置为承担峰值业务所需要的最小后端ECS实例数 * 0.85

  • 七层转发规则健康检查后端健康ECS实例个数 < X,具体值需要按实际调整,建议设置为承担峰值业务所需要的最小后端ECS实例数 * 0.85

NLB

Info

当实例维度以下某个条件发生时:

  • 实例每秒新建连接数 > X,具体值需要按实际调整,参考设置为峰值的2

  • 实例每秒最大并发连接数 > X,具体值需要按实际调整,参考设置为峰值的2

  • 实例每秒入bit数 > X,具体值需要按实际调整,参考设置为峰值的2

  • 实例每秒出bit数 > X,具体值需要按实际调整,参考设置为峰值的2

  • 实例每秒丢失连接数 > X,具体值需要按实际调整,参考设置为峰值的2

port维度以下某个条件发生时:

  • 监听健康检查后端健康ECS实例个数 < X,具体值需要按实际调整,建议设置为承担峰值业务所需要的最小后端ECS实例数 * 0.3

Warn

当实例维度以下某个条件发生时:

  • 实例每秒新建连接数 > X,具体值需要按实际调整,参考设置为峰值的5

  • 实例每秒最大并发连接数 > X,具体值需要按实际调整,参考设置为峰值的5

  • 实例每秒入bit数 > X,具体值需要按实际调整,参考设置为峰值的5

  • 实例每秒出bit数 > X,具体值需要按实际调整,参考设置为峰值的5

  • 实例每秒丢失连接数 > X,具体值需要按实际调整,参考设置为峰值的5

port维度以下某个条件发生时:

  • 监听健康检查后端异常ECS实例个数 > X, 具体值需要按实际调整,建议设置为后端应用最大并发发布台数

  • 监听健康检查后端健康ECS实例个数 < X,具体值需要按实际调整,建议设置为承担峰值业务所需要的最小后端ECS实例数 * 0.5

Critical

当实例维度以下某个条件发生时:

  • 实例每秒新建连接数 > X,具体值需要按实际调整,参考设置为峰值的10

  • 实例每秒最大并发连接数 > X,具体值需要按实际调整,参考设置为峰值的10

  • 实例每秒入bit数 > X,具体值需要按实际调整,参考设置为峰值的10

  • 实例每秒出bit数 > X,具体值需要按实际调整,参考设置为峰值的10

  • 实例每秒丢失连接数 > X,具体值需要按实际调整,参考设置为峰值的10

port维度以下某个条件发生时:

  • 监听健康检查后端异常ECS实例个数 > X, 具体值需要按实际调整,建议设置为后端应用最大并发发布台数 * 2

  • 监听健康检查后端健康ECS实例个数 < X,具体值需要按实际调整,建议设置为承担峰值业务所需要的最小后端ECS实例数 * 0.85

ALB

Info

loadBalancer维度以下某个条件发生时:

  • 负载均衡实例每秒新建连接 > X,具体值需要按实际调整,参考设置为峰值的2

  • 负载均衡实例每秒最大并发连接数 > X,具体值需要按实际调整,参考设置为峰值的2

  • 负载均衡实例入带宽 > X,具体值需要按实际调整,参考设置为峰值的2

  • 负载均衡实例出带宽 > X,具体值需要按实际调整,参考设置为峰值的2

  • 负载均衡实例每秒丢弃连接数 > X,具体值需要按实际调整,参考设置为峰值的2

  • 负载均衡实例每秒TLS握手失败连接数 > X,具体值需要按实际调整,参考设置为峰值的2

  • 负载均衡实例每秒5XX个数 > X,具体值需要按实际调整,参考设置为QPS峰值的0.1%

  • 负载均衡实例请求时延 > X,具体值需要按实际调整,参考设置为峰值的2

listener维度以下某个条件发生时:

  • 监听健康的服务器数 < X,具体值需要按实际调整,建议设置为承担峰值业务所需要的最小后端ECS实例数 * 0.3

Warn

loadBalancer维度以下某个条件发生时:

  • 负载均衡实例每秒新建连接 > X,具体值需要按实际调整,参考设置为峰值的5

  • 负载均衡实例每秒最大并发连接数 > X,具体值需要按实际调整,参考设置为峰值的5

  • 负载均衡实例入带宽 > X,具体值需要按实际调整,参考设置为峰值的5

  • 负载均衡实例出带宽 > X,具体值需要按实际调整,参考设置为峰值的5

  • 负载均衡实例每秒丢弃连接数 > X,具体值需要按实际调整,参考设置为峰值的5

  • 负载均衡实例每秒TLS握手失败连接数 > X,具体值需要按实际调整,参考设置为峰值的5

  • 负载均衡实例每秒5XX个数 > X,具体值需要按实际调整,参考设置为QPS峰值的0.5%

  • 负载均衡实例请求时延 > X,具体值需要按实际调整,参考设置为峰值的5

listener维度以下某个条件发生时:

  • 监听不健康的服务器数 > X, 具体值需要按实际调整,建议设置为后端应用最大并发发布台数

  • 监听健康的服务器数 < X,具体值需要按实际调整,建议设置为承担峰值业务所需要的最小后端ECS实例数 * 0.5

Critical

loadBalancer维度以下某个条件发生时:

  • 负载均衡实例每秒新建连接 > X,具体值需要按实际调整,参考设置为峰值的10

  • 负载均衡实例每秒最大并发连接数 > X,具体值需要按实际调整,参考设置为峰值的10

  • 负载均衡实例入带宽 > X,具体值需要按实际调整,参考设置为峰值的10

  • 负载均衡实例出带宽 > X,具体值需要按实际调整,参考设置为峰值的10

  • 负载均衡实例每秒丢弃连接数 > X,具体值需要按实际调整,参考设置为峰值的10

  • 负载均衡实例每秒TLS握手失败连接数 > X,具体值需要按实际调整,参考设置为峰值的10

  • 负载均衡实例每秒5XX个数 > X,具体值需要按实际调整,参考设置为QPS峰值的1%

  • 负载均衡实例请求时延 > X,具体值需要按实际调整,参考设置为峰值的10

listener维度以下某个条件发生时:

  • 监听不健康的服务器数 > X, 具体值需要按实际调整,建议设置为后端应用最大并发发布台数 * 2

  • 监听健康的服务器数 < X,具体值需要按实际调整,建议设置为承担峰值业务所需要的最小后端ECS实例数 * 0.85

应用层相关指标较多且与业务紧密相关,请根据实际业务反馈持续优化相关监控及各级别的阈值的配置。

6.2.3 混合云容灾监控配置参考

专线连接

如果使用专线连接阿里云,请参考以下建议对专线进行云监控的告警规则配置:

监控对象

告警级别

监控指标和条件

高速通道-物理端口

Info

当以下某个条件发生时:

  • 端口出方向带宽利用率 > 30%

  • 端口入方向带宽利用率 > 30%

Warn

当以下某个条件发生时:

  • 端口出方向带宽利用率 > 50%

  • 端口入方向带宽利用率 > 50%

Critical

当以下某个条件发生时:

  • 物理状态 = DOWN

  • 端口出方向带宽利用率 > 85%

  • 端口入方向带宽利用率 > 85%

  • 端口入向错包数 > X,建议设置为端口IDCVPC方向流出速率平均值 / 512 / 8 * 0.005 * 60(分钟级达到千分之5)

  • 端口出向错包数 > X,建议设置为端口VPCIDC方向流入速率平均值 / 512 / 8 * 0.005 * 60(分钟级达到千分之5)

  • 端口出方向丢包数 > X,建议设置为端口规格 / 512 / 8 * 0.02 * 60(分钟级达到百分之2)

  • 端口入方向丢包数 > X,建议设置为端口规格 / 512 / 8 * 0.02 * 60(分钟级达到百分之2)

高速通道-边界路由器

Info

当以下某个条件发生时:

  • IDCVPC方向流入速率 > X,建议设置为VBR规格bps * 0.30

  • IDCVPC方向流出速率 > X,建议设置为VBR规格bps * 0.30

Warn

当以下某个条件发生时:

  • IDCVPC方向流入速率 > X,建议设置为VBR规格bps * 0.50

  • IDCVPC方向流出速率 > X,建议设置为VBR规格bps * 0.50

Critical

当以下某个条件发生时:

  • IDCVPC方向流入速率 > X,建议设置为端口规格bps * 0.85

  • IDCVPC方向流出速率 > X,建议设置为端口规格bps * 0.85

  • IDCVPC方向丢弃流入数据包数 > X,建议设置为VBR规格 / 512 / 8 * 0.02 * 60(分钟级达到百分之2)

  • VPCIDC方向丢弃流出数据包数 > X,建议设置为VBR规格 / 512 / 8 * 0.02 * 60(分钟级达到百分之2)

  • VPCVBR方向限速丢弃数据包数 > X,建议设置为VBR规格 / 512 / 8 * 0.02 * 60(分钟级达到百分之2)

  • VBR健康检查时延 > X or VBR健康检查时延 == 0,具体值需要按实际调整,参考设置为峰值的2倍(当专线中断时,VBR健康检查时延输出0)

  • VBR健康检查丢包率 > X,具体值需要按实际调整,参考设置为1%(如遇该指标较高,请重点排查探测目标交换机的CoPP限速配置)

高速通道-专线网关

Info

当转发路由器(TR)实例监控维度以下某个条件发生时:

  • ECRTR方向流出速率 > ECR Attachment规格 * 0.3

当跨域连接维度以下某个条件发生时:

  • ECR实例跨域访问的速率 > 跨域连接带宽规格 * 0.3

Warn

当转发路由器(TR)实例监控维度以下某个条件发生时:

  • ECRTR方向流出速率 > ECR Attachment规格 * 0.5

当跨域连接维度以下某个条件发生时:

  • ECR实例跨域访问的速率 > 跨域连接带宽规格 * 0.5

Critical

当转发路由器(TR)实例监控维度以下某个条件发生时:

  • ECRTR方向流出速率 > ECR Attachment规格 * 0.85

当跨域连接维度以下某个条件发生时:

  • ECR实例跨域访问的速率 > 跨域连接带宽规格 * 0.85

  • ECR实例跨域访问的丢包率 > X,具体值需要按实际调整,参考设置为1%

高速通道-对等连接

Info

当实例维度以下某个条件发生时:

  • 入方向带宽 > X,建议设置为对等连接带宽规格 * 0.3

  • 出方向带宽 > X,建议设置为对等连接带宽规格 * 0.3

Warn

当实例维度以下某个条件发生时:

  • 入方向带宽 > X,建议设置为对等连接带宽规格 * 0.5

  • 出方向带宽 > X,建议设置为对等连接带宽规格 * 0.5

Critical

当实例维度以下某个条件发生时:

  • 入方向带宽 > X,建议设置为对等连接带宽规格 * 0.85

  • 出方向带宽 > X,建议设置为对等连接带宽规格 * 0.85

  • 网络限速丢包速率 > X,具体值需要按实际调整,参考设置为100

订阅以下云监控系统事件并推送告警

  1. 产品:高速通道-专线连接;事件类型:Down;事件名称:BGP Peer状态从Established变为Down

VPN网关

如果使用VPN网关接入阿里云,请参考以下建议对VPN进行云监控的告警规则配置:

监控对象

告警级别

监控指标和条件

VPN网关

Info

当实例维度以下某个条件发生时:

  • vpn网关流入带宽使用率 > 30%

  • vpn网关流出带宽使用率 > 30%

Warn

当实例维度以下某个条件发生时:

  • vpn网关流入带宽使用率 > 50%

  • vpn网关流出带宽使用率 > 50%

Critical

当实例维度以下某个条件发生时:

  • vpn网关流入带宽使用率 > 85%

  • vpn网关流出带宽使用率 > 85%

  • VPN网关中IPSec连接其中一条单隧道的协商状态 = 0(0Down,1Up)

注:如果“IPsec连接绑定CEN/TR”的方式组网,其监控方式参考“CEN/TR全球组网”小节。

订阅以下云监控系统事件并推送告警

  1. 产品:VPN网关;事件类型:异常、状态通知;事件名称:证书到期、IPSEC连接隧道全部协商失败、IPSEC隧道协商失败、health check failed、vpn连接健康检查失败

CEN/TR全球组网

如果使用CEN/TR进行全球组网,请参考以下建议对CEN/TR进行云监控的告警规则配置:

监控对象

告警级别

监控指标和条件

云企业网-地域监控

Info

当以下某个条件发生时:

  • 地域间出方向带宽峰值利用率 > 30%

  • 地域间Qos队列出方向带宽峰值利用率 > 30%

Warn

当以下某个条件发生时:

  • 地域间出方向带宽峰值利用率 > 50%

  • 地域间Qos队列出方向带宽峰值利用率 > 50%

Critical

当以下某个条件发生时:

  • 地域间出方向带宽峰值利用率 > 85%

  • 地域间Qos队列出方向带宽峰值利用率 > 85%

  • 地域间出方向限速丢包速率 > X,具体值需要按实际调整,参考设置为100

  • 地域间Qos队列出方向限速丢包速率 > X,具体值需要按实际调整,参考设置为100

云企业网-区域监控

Info

当以下某个条件发生时:

  • CEN带宽包出方向带宽峰值利用率 > 30%

Warn

当以下某个条件发生时:

  • CEN带宽包出方向带宽峰值利用率 > 50%

Critical

当以下某个条件发生时:

  • CEN带宽包出方向带宽峰值利用率 > 85%

云企业网-转发路由器(当使用企业版时配置)

Info

转发路由器(TR)实例AZ级监控维度以下某个条件发生时:

  • TR流入流量速率 > X,具体值需要按实际调整,参考设置为峰值的2

转发路由器(TR)连接AZ级监控维度以下某个条件发生时:

  • 流入速率 > X,具体值需要按实际调整,参考设置为连接带宽规格 * 0.3

Warn

转发路由器(TR)实例AZ级监控维度以下某个条件发生时:

  • TR流入流量速率 > X,具体值需要按实际调整,参考设置为峰值的5

转发路由器(TR)连接AZ级监控维度以下某个条件发生时:

  • 流入速率 > X,具体值需要按实际调整,参考设置为连接带宽规格 * 0.5

Critical

转发路由器(TR)实例AZ级监控维度以下某个条件发生时:

  • TR流入流量速率 > X,具体值需要按实际调整,参考设置为峰值的10

转发路由器(TR)连接AZ级监控维度以下某个条件发生时:

  • 流入速率 > X,具体值需要按实际调整,参考设置为连接带宽规格 * 0.85

注:

  1. TR连接带宽规格说明见这里:使用限制

订阅以下云监控系统事件并推送告警

  1. 产品:云企业网;事件:90%QuotaExceeded;事件名称:超过Quota 90%事件

当在TR中创建VPN Attachment时,请参考以下建议对VPN连接进行云监控的告警规则配置:

监控对象

告警级别

监控指标和条件

vpn连接

Info

当以下某个条件发生时:

  • vpn连接单隧道流入带宽 > 300M(VPN Attachment带宽规格 * 0.3)

  • vpn连接单隧道流出带宽 > 300M(VPN Attachment带宽规格 * 0.3)

  • vpn连接单隧道流入包速率 + vpn连接单隧道流出包速率 > 3.6w(VPN Attachment包速率规格 * 0.3)

Warn

当以下某个条件发生时:

  • vpn连接单隧道流入带宽 > 500M(VPN Attachment带宽规格 * 0.5)

  • vpn连接单隧道流出带宽 > 500M(VPN Attachment带宽规格 * 0.5)

  • vpn连接单隧道流入包速率 + vpn连接单隧道流出包速率 > 6w(VPN Attachment包速率规格 * 0.5)

Critical

当以下某个条件发生时:

  • vpn连接单隧道流入带宽 > 850M(VPN Attachment带宽规格 * 0.85)

  • vpn连接单隧道流出带宽 > 850M(VPN Attachment带宽规格 * 0.85)

  • vpn连接单隧道流入包速率 + vpn连接单隧道流出包速率 > 10.2w(VPN Attachment包速率规格 * 0.85)

vpn网关

Critical

vpnconnection维度以下某个条件发生时:

  • VpnAttachment其中一条单隧道的协商状态 = 0(0Down,1Up)

注:

  1. vpn连接各规格说明见这里:使用限制

7 实操指引

云产品监控指标接入ARMS Prometheus,配置自定义大盘,配置告警:云服务可观测

8 附录

大盘配置方法

1、阿里云云监控Prometheus

  • 数据接入:进入应用实时监控服务ARMS > 接入中心,选择相应的产品(如EIP、ALB),然后按照提示完成接入。

  • 自定义大盘:进入应用实时监控服务ARMS > 接入管理 > 云服务接入环境,选择相应的产品,然后参考第六部分参考案例自定义大盘。

2、非阿里云云监控Prometheus(自建或者三方)的数据接入

  • 在阿里云 ECS 或 ACK 集群中部署一个轻量 Prometheus,或使用 Prometheus Agent 模式。

  • 配置采集阿里云资源指标的插件(可通过 Exporter、API、日志等方式),可以参考开源的aliyun_exporter插件

  • 在 prometheus.yml 中配置 remote_write 指向您自建 Prometheus 的 /api/v1/write 接口。

  • 重启 Prometheus,数据将被发送到您的本地实例。

3、其它监控平台的数据接入

  • 需要自行开发数据接入方案,可以以非阿里云云监控Prometheus的采集插件为参考

告警配置方法

1、阿里云云监控Prometheus

  • 进入应用实时监控服务ARMS > 告警规则 > 创建告警规则,注意选择Prometheus实例所在的地域。

  • 依次配置规则名称,Prometheus实例,自定义 PromQL,严重等级,告警阈值

2、阿里云云监控

  • 进入阿里云云监控 > 报警服务 > 报警规则 > 创建报警规则

  • 选择产品

  • 创建规则,定义紧急/告警/普通的规则

建议

定期(每月,甚至每周)组织团队进行网络巡检,并落实明确的优化计划,直至风险完全消除。

建议

工具的价值在于实战,但准备必须在平时。唯有通过持续学习与演练,才能确保问题来临时,工具真正成为我们的利器。