网络智能运维方案
本文档介绍了阿里云云上网络智能运维方案的设计目标与典型场景,围绕通过“大盘”汇聚全局态势、“告警”快速感知与定位问题、“巡检”主动挖掘并消除隐患,以及借助“工具”深入分析和解决根因四大运维手段,系统阐述了如何实现高效、主动、智能的网络运维;同时提供了支撑这些能力的监控与事件平台选型参考,以及各云网络产品的大盘和告警配置详细手册,助力用户在实际业务中落地应用。
1 背景需求
随着企业数字化转型的深入,云网络已成为支撑业务运行的核心基础设施。然而,云环境的复杂性、动态性和规模的持续增长,给传统网络运维带来了前所未有的挑战:
缺乏全局视图:网络资源分散在不同产品中,缺乏统一的监控、分析和告警视图,难以进行全局优化。
复杂性提升:混合云、多云架构、微服务、容器化(如ACK)等技术广泛应用,网络拓扑日益复杂,传统人工运维难以应对。
性能瓶颈难发现:突发流量、带宽瓶颈、延迟抖动等问题难以实时感知和预测,影响用户体验。
故障定位困难:跨地域、跨VPC、跨账号、跨产品的网络链路问题排查耗时长,依赖经验,定位效率低。
安全风险加剧:攻击面扩大,安全策略(如安全组、NACL)配置错误或变更管理不当,可能导致安全漏洞。
运维成本高企:依赖大量人力进行日常巡检、故障响应和配置管理,效率低下,人力成本高。
云网络智能运维解决方案旨在帮助客户更好地上好云、用好云、管好云。该解决方案重点在于指导客户在日常运维管理中,对网络指标进行监控,对网络风险问题进行识别,针对网络异常进行分析定界解决。同时,对业务迭代引入的网络需求进行升级改造和网络性能优化。
2 目标客户
本方案适用于以下类型的客户:
大型企业及集团客户:拥有复杂的混合云/多云架构、多地域部署、大量VPC和网络资源,对网络稳定性、安全性和运维效率要求极高。
互联网与科技公司:业务迭代快,流量波动大,对网络性能、弹性、故障自愈能力有强需求,追求DevOps/NetOps效率。
金融、政务、医疗等关键行业客户:对网络的高可用性、安全合规性要求极为严格,需要满足严格的审计和监管要求。
正在经历数字化转型的传统企业:从传统IDC向云迁移,需要快速建立现代化的网络运维能力。
IT/网络运维团队:希望借助智能化工具提升运维效率、降低故障率、释放人力专注于更高价值工作的团队。
3 方案介绍
云网络智能运维解决方案推荐给客户进行云网络运维的四大手段是:
掌握“大盘”汇聚和洞察全局
依靠“告警”感知和定位问题
日常“巡检”挖掘和消除隐患
运用“工具”分析和解决根因
3.1 掌握“大盘”汇聚和洞察全局

网络大盘(Network Dashboard)不仅仅是“数据可视化看板”,它是一个集监控、分析、决策、协同于一体的云网络运营中枢。大盘应该遵循以下指导设计:
网络大盘为特定角色解决特定问题提供数据支撑:
业务负责人:关注整体可用性、SLA 达成、成本趋势。
运维人员:关注故障告警、链路状态、性能异常。
架构团队:关注拓扑结构、容量使用、扩展瓶颈。
建议:为不同角色设计不同视图,如“运维视图”、“业务视图”、“架构视图”。
按照网络架构分层展示,避免信息过载:
公网接入层:EIP、公网带宽包,NAT等。
应用交付层:CLB/ALB/NLB/GA等。
全球组网层:VPN、专线、TR、CEN等。
建议:1)支持“网络产品总览-具体产品总览-单一实例详情”三级自上而下钻取,从整体到细节。2)相关指标放在同一个图表中展示,提升展示信息密度。3)良好的命名、资源组划分、标签有利于快速定位问题。
聚焦关键业务和指标,重要指标放在大盘上,其它指标日常不用关注,只需要在相关问题发生时分析使用:
流量:出入带宽峰值、流量趋势等。
可用性:SLB 健康检查通过率,专线/VPN/跨地域链路状态等。
性能:时延,响应时间,带宽使用率,丢包率等。
成本:EIP数量、CDT带宽费用、网元CU费用等。
建议:在大盘中使用“红/黄/绿”三色标识健康状态。
3.2 依靠“告警”感知和定位问题

事件订阅机制:对影响业务的事件设置订阅并制定告警机制。此步骤有助于第一时间发现系统异常、性能问题或安全威胁。
严重告警即时响应流程:制定严格的应急响应计划,特别是对于标记为“严重”的告警,需要有明确的预案,并指定专人负责协调处理,直到问题完全解决。
定期查看事件中心:设定固定的周期性检查计划,用于审查事件中心中的历史记录。通过对这些数据的分析,可以提前识别出趋势性问题或慢性隐患,采取预防性措施防止服务中断。
3.3 依靠“巡检”挖掘和消除隐患

在构建和维护网络架构时,掌握巡检能力是至关重要的一步。首先,我们需要识别并理解各种潜在的风险,包括稳定性风险、安全性风险、性能风险以及成本浪费。稳定性风险主要体现在主备配置错误上,这可能导致在故障发生时无法顺利切换,进而影响系统的正常运行;同时,资源部署不合理也会导致爆炸半径大,增加系统崩溃的可能性。安全性风险则涉及网络ACL配置漏洞和安全组权限过大等问题,这些问题可能会给系统带来安全隐患,使网络环境变得脆弱不堪。性能风险通常表现为网络路径绕行,这会增加数据传输的延迟,而流量多次超限则表明系统可能需要进行扩容以满足日益增长的需求。此外,成本浪费也是一个不容忽视的问题,资源利用率低和多种计费方式选择错误都会导致不必要的开支。
为了有效应对这些风险,我们需要定期执行巡检。通过NIS控制台,我们可以进行网络巡检,查看历史报告,并根据需要重新发起巡检。这一过程稍后会生成详细的巡检报告,建议每周执行一次,以便及时发现并处理潜在问题。一旦发现问题,我们应立即进入隐患处理阶段。在这一阶段,我们可以通过NIS控制台和网络巡检工具来查看详细报告,获取网络优化建议,并根据这些建议采取相应的措施来处理隐患。例如,对于稳定性风险,我们可以优化主备配置和资源部署;对于安全性风险,我们可以修补网络ACL配置漏洞和调整安全组权限;对于性能风险,我们可以优化网络路径和进行必要的扩容;而对于成本浪费,我们可以提高资源利用率和选择更合适的计费方式。
3.4 掌握“工具”分析和解决根因

NIS:Network Intelligent Service,是阿里云云网络基于多年大规模网络运维实践和技术积累,面向复杂网络场景推出的一款智能网络服务产品。它集网络测量、诊断、优化于一体,提供端到端的网络可观测性与智能分析能力,帮助用户快速定位跨地域、跨网络域的连通性、性能与故障问题,实现“看得清、查得快、管得住”的云网络运维体验。NIS提供了丰富的工具用于分析和解决根因,当大盘观察异常、告警发生时、巡检报告给出优化建议时,你可以使用NIS提供的工具完成以下功能:
实例诊断:检测实例的配置与运行状态,并能根据诊断的异常项提供智能修复方案。
路径分析:端到端分析网络连通性,诊断网络配置错误引起的连接问题。当目的地不可到达时,识别阻塞位置和原因。保持流量分析功能的启用状态,基于吞吐、丢包、时延、用户分布等数据对网络流量进行不间断监控和深入分析,有利于运维人员基于流量情况对业务架构做优化。
流量分析:监控网络中实时流量以及历史流量的流量数据和流量监控指标,帮助了解网络应用的性能和负载情况。
网络洞察:分析业务单元流量的实时运行状况,帮助您及时感知业务网络异常,并提供网络质量评估数据和事件影响面分析。
网络拓扑:快速了解阿里云云上网络架构,进行网络配置验证和云网络资源统一运维。
性能观测:提供阿里云内及互联网间的网络平均时延数据,为搭建服务时选择地域或可用区提供参考。
4 产品组合
4.1 监控平台比较
监控平台种类繁多。我们按照平台生态分为三大类:阿里云云监控、Prometheus监控、其它监控平台(如Zabbix、ElasticSearch+Logstash+Kibana、OpenTelemetry),五小类:阿里云基础云监控、阿里云企业云监控(归属阿里云云监控大类)、ARMS Prometheus+Grafana、自有Prometheus+Grafana(归属Prometheus)、其它监控平台(归属其它监控平台大类)。比较如下:
优势 | 劣势 | 说明 | |
阿里云基础云监控 |
|
|
|
阿里云企业云监控 |
|
|
|
ARMS Prometheus+Grafana |
|
|
|
自有Prometheus+Grafana |
|
|
|
其它监控平台 |
|
|
|
另外一方面,用户同时使用的监控平台碎片化非常严重。在运维方面投入不足的团队会被动地使用监控平台导致此结果;有专业运维团队的倾向于统一监控平台,但仍无法避免碎片化。据Observability Survey 2024的数据显示,70%的团队使用了4种以上不同的监控平台。Prometheus+Grafana是当前云原生生态的事实标准,社区活跃、文档丰富、配置方便、功能强大、集成度高,适合绝大多数现代应用监控场景。
阿里云的 ARMS Prometheus 是一款托管的 Prometheus + Grafana 服务,免去用户自行部署、运维和扩缩容监控系统的复杂性,开箱即用,支持大规模指标采集、存储与可视化分析。它深度集成阿里云生态系统,可无缝对接 ECS、容器服务 ACK、Serverless、应用实时监控服务 ARMS Application 等各类云资源与应用,实现全栈式可观测性。同时,ARMS Prometheus 提供强大的告警能力,支持基于 PromQL 的灵活告警规则配置,可对指标异常(如延迟升高、错误率上升、资源水位超限等)进行精准检测。告警规则支持多级阈值、持续时间判断(for 条件)、分组与去重,有效避免误报和告警风暴。告警触发后,可通过钉钉、短信、邮件、Webhook 等多种渠道实时通知值班人员,并与阿里云告警中心和事件中心联动,实现告警生命周期的统一管理与响应闭环,帮助团队快速发现并处置潜在风险,保障业务稳定运行。我们将它作为最佳实践进行推荐。
4.2 事件平台比较
NIS和云监控均提供“告警”事件的产生能力,两者的差异如下:
云监控 | NIS | |
范围 | 全部云产品 | 网络产品 |
类型 | 系统预定义事件+用户配置阈值 | 系统预定义事件 |
需要配置 | 是 | 否 |
产生逻辑 | 系统预定义事件:超规格、中断、异常等关键事件 用户配置阈值:根据客户对某个Metric对系统产生影响的判断,由客户自行配置产生告警 | 只有系统预定义事件 |
自定义阈值 | 是 | 否 |
全面性 | 全 | 少 |
通知手段 | 支持 手机、邮箱、钉钉、飞书、企业微信 SLS、轻量消息队列、函数计算 | 不支持 可以将NIS的事件推送到云监控事件,再走云监控的通知手段 |
典型的云监控告警是:客户配置当某EIP的实时带宽达到5Gbps,打电话给应用的运维工程师。
典型的NIS告警:当某EIP带宽包达到规格的95%时,产生NIS事件。用户可以通过云监控通知应用的运维工程师,或者通过API轮询到该事件并进行自动化处理。
云监控支持全部云产品的系统事件与用户自定义阈值告警,具备完整的告警配置能力(如 Metric 阈值、持续时间判断、多级告警等),而 NIS 仅提供网络产品的系统预定义事件,且不支持用户配置阈值。因此,云监控更适合承担企业级统一告警中心的角色。
5 应用场景
核心应用场景包括:
网络性能监控与优化。
异常检测与智能告警。
故障快速定位与根因分析。
资源利用率分析与成本优化。
自动化网络运维。
多云/混合云网络统一管理。
6 配置参考手册
6.1 大盘配置参考
以下按照网络架构分层介绍对云网络的典型大盘设计。
6.1.1 公网业务大盘
弹性公网IP,即EIP,是阿里云产品提供公网访问的标准形态,多数网络服务支持绑定用户EIP。但是由于历史原因,部分产品也支持非用户EIP形态的公网服务,请参考以下表格及建议。
产品 | 公网类型 | 建议 |
ECS |
| 统一使用EIP
|
CLB |
| |
ALB/NLB/NAT |
| |
VPN | 公网VPN使用非用户EIP | 单独设置大盘 |
GA | GA使用非用户EIP |
在统计指标上,EIP上的出入带宽/流量总是表示在该EIP上实际传输带宽/流量。而根据EIP+“是否加入共享带宽”+“是否开通CDT”的组合,对利用率/丢包/账单的对象是不一样,请参考以下表格选择。
产品 | 组合 | 说明 | 观察对象 | |
是否加入 共享带宽cbwp | 是否开通 CDT | |||
EIP | 否 | 否 |
|
|
EIP | 否 | 是 |
|
|
EIP | 是 | 否 |
|
|
EIP | 是 | 是 |
|
|
公网大盘设计参考
EIP大盘,支持按照地域/资源组/实例ID/IP过滤部分实例。实例展示表格支持超链接到实例监控页。
面板名称 | 类型 | 指标 | 坐标轴 | 说明 |
EIP速率总和 | 时间序列 | 入向速率:总和 | 左 | |
出向速率:总和 | 左 | |||
限速丢包速率:总和 | 右 | >100标红 | ||
EIP带宽利用率 | 时间序列 | 入向带宽利用率:最大、最小、平均 | 左 | >50标黄 >80标红 |
出向带宽利用率:最大、最小、平均 | 左 | |||
EIP限速丢包TopN实例 | 表格 | 限速丢包速率 | >100标红 | |
EIP入向带宽利用率TopN实例 | 表格 | 入向带宽利用率 | >50标黄 >80标红 | |
EIP出向带宽利用率TopN实例 | 表格 | 出向带宽利用率 | ||
EIP入速率TopN实例 | 表格 | 入速率 | ||
EIP出速率TopN实例 | 表格 | 出速率 |
共享带宽大盘,支持按照地域/资源组/实例ID/IP过滤部分实例。实例展示表格支持超链接到实例监控页。
面板名称 | 类型 | 指标 | 坐标轴 | 说明 |
EBWP速率总和 | 时间序列 | 入向速率:总和 | 左 | |
出向速率:总和 | 左 | |||
限速丢包速率:总和 | 右 | >100标红 | ||
EBWP带宽利用率 | 时间序列 | 入向带宽利用率:最大、最小、平均 | 左 | >50标黄 >80标红 |
出向带宽利用率:最大、最小、平均 | 左 | |||
EBWP限速丢包TopN实例 | 表格 | 限速丢包速率 > 0 | >100标红 | |
EBWP入向带宽利用率TopN实例 | 表格 | 入向带宽利用率 > 30 | >50标黄 >80标红 | |
EBWP出向带宽利用率TopN实例 | 表格 | 出向带宽利用率 > 30 | ||
EBWP入速率TopN实例 | 表格 | 入速率 | ||
EBWP出速率TopN实例 | 表格 | 出速率 |
6.1.2 网元业务大盘
CLB大盘设计参考
CLB的监控指标有54+项,我们按照横向维度和纵向维度进行分类。
横向维度可以分为CLB监听粒度和CLB某个实例粒度。多数统计指标都有监听粒度和实例粒度两个版本,但是1)资源利用率相关的指标只有实例粒度的;2)健康检查相关的指标只有监听粒度的。
监听粒度的监控指标名称中不包含Instance,比如AliyunSlb_ActiveConnection是CLB某个监听的活跃连接数统计。
实例粒度的监控指标名称中包含Instance,比如AliyunSlb_InstanceActiveConnection是CLB整体的活跃连接数统计之和。
纵向维度可以分为四层和七层两大类,每类各分四个小类。
四层的统计指标分为健康检查、资源利用率、流量、连接数四类。
七层的统计指标分为资源利用率、响应时间、状态码、其它四类。
分类 | 监听粒度 | 实例粒度 | |
四层 | 健康检查 | AliyunSlb_HealthyServerCount AliyunSlb_UnhealthyServerCount | |
资源利用率 | AliyunSlb_InstanceNewConnectionUtilization - 实例的新建连接利用率 AliyunSlb_InstanceMaxConnectionUtilization - 实例的最大连接利用率 AliyunSlb_InstanceTrafficRXUtilization - 实例的接收流量利用率 AliyunSlb_InstanceTrafficTXUtilization - 实例的发送流量利用率 | ||
流量 | AliyunSlb_TrafficRXNew - 新接收流量 AliyunSlb_TrafficTXNew - 新发送流量 AliyunSlb_DropTrafficRX - 接收端丢弃的流量 AliyunSlb_DropTrafficTX - 发送端丢弃的流量 AliyunSlb_PacketRX - 接收数据包数 AliyunSlb_PacketTX - 发送数据包数 AliyunSlb_DropPacketRX - 接收端丢弃的数据包数 AliyunSlb_DropPacketTX - 发送端丢弃的数据包数 | AliyunSlb_InstanceTrafficRX - 实例的接收流量 AliyunSlb_InstanceTrafficTX - 实例的发送流量 AliyunSlb_InstanceDropTrafficRX - 实例的接收端丢弃流量 AliyunSlb_InstanceDropTrafficTX - 实例的发送端丢弃流量 AliyunSlb_InstancePacketRX - 实例的接收数据包数 AliyunSlb_InstancePacketTX - 实例的发送数据包数 AliyunSlb_InstanceDropPacketRX - 实例的接收端丢弃数据包数 AliyunSlb_InstanceDropPacketTX - 实例的发送端丢弃数据包数 | |
连接数 | AliyunSlb_ActiveConnection - 当前活动连接数 AliyunSlb_InactiveConnection - 非活动连接数 AliyunSlb_NewConnection - 新建连接数 AliyunSlb_MaxConnection - 最大连接数 AliyunSlb_DropConnection - 被丢弃的连接数 | AliyunSlb_InstanceActiveConnection - 实例的当前活动连接数 AliyunSlb_InstanceInactiveConnection - 实例的非活动连接数 AliyunSlb_InstanceNewConnection - 实例的新建连接数 AliyunSlb_InstanceMaxConnection - 实例的最大连接数 AliyunSlb_InstanceDropConnection - 实例的被丢弃连接数 | |
七层 | 利用率 | AliyunSlb_InstanceQpsUtilization - 实例的QPS利用率 | |
响应时间 | AliyunSlb_Rt - 响应时间 | AliyunSlb_InstanceRt - 实例的响应时间 AliyunSlb_InstanceUpstreamRt - 实例的后端响应时间 | |
状态码 | AliyunSlb_StatusCode2xx - HTTP状态码为2xx的请求数 AliyunSlb_StatusCode3xx - HTTP状态码为3xx的请求数 AliyunSlb_StatusCode4xx - HTTP状态码为4xx的请求数 AliyunSlb_StatusCode5xx - HTTP状态码为5xx的请求数 AliyunSlb_StatusCodeOther - 其他HTTP状态码请求数 AliyunSlb_UpstreamCode4xx - 后端返回4xx状态码的次数 AliyunSlb_UpstreamCode5xx - 后端返回5xx状态码的次数 | AliyunSlb_InstanceStatusCode2xx - 实例的HTTP状态码为2xx的请求数 AliyunSlb_InstanceStatusCode3xx - 实例的HTTP状态码为3xx的请求数 AliyunSlb_InstanceStatusCode4xx - 实例的HTTP状态码为4xx的请求数 AliyunSlb_InstanceStatusCode5xx - 实例的HTTP状态码为5xx的请求数 AliyunSlb_InstanceStatusCodeOther - 实例的其他HTTP状态码请求数 AliyunSlb_InstanceUpstreamCode4xx - 实例的后端返回4xx状态码的次数 AliyunSlb_InstanceUpstreamCode5xx - 实例的后端返回5xx状态码的次数 | |
其它 | AliyunSlb_Qps - 每秒查询率 | AliyunSlb_InstanceQps - 实例的每秒查询率(QPS) |
CLB大盘设计参考
CLB大盘,支持按照地域/资源组/实例ID/实例名称过滤部分实例。实例展示表格支持超链接跳转至实例监控页。
由于CLB指标维度较多,建议TopN部分的维度选择为:
利用率部分统一为CLB实例。
如果CLB实例承载单一业务,则建议TopN展示CLB实例。
如果CLB实例承载混合业务,则建议TopN展示CLB监听。
面板名称 | 类型 | 指标 | 坐标轴 | 说明 |
CLB速率总和 | 时间序列 | 入向速率:总和 | 左 | |
出向速率:总和 | 左 | |||
入向丢弃速率:总和 | 右 | >100标红 | ||
出向丢包速率:总和 | 右 | >100标红 | ||
CLB连接总和 | 时间序列 | 活跃连接:总和 | 左 | |
非活跃连接:总和 | 左 | |||
新建连接:总和 | 左 | |||
最大连接:总和 | 左 | |||
丢弃连接:总和 | 右 | 设置标黄和标红 | ||
健康检查 | 时间序列 | 健康服务器:总和 | 左 | 标绿 |
不健康服务器:总和 | 左 | 设置标黄标红 | ||
CLB实例利用率 | 时间序列 | 新建连接利用率:最大、最小、平均 | 左 | >50标黄 >80标红 |
最大连接利用率:最大、最小、平均 | 左 | |||
入带宽利用率:最大、最小、平均 | 左 | |||
出带宽利用率:最大、最小、平均 | 左 | |||
七层QPS利用率:最大、最小、平均 | 左 | |||
七层QPS | 时间序列 | QPS:总和 | 左 | |
七层响应时间 | 时间序列 | 响应时间:最大、最小、平均 | 左 | 设置标黄标红 |
后端响应时间:最大、最小、平均 | 左 | |||
七层状态码统计 | 时间序列 | 2xx:总和 | 左 | |
3xx:总和 | 左 | |||
4xx:总和 | 左 | 设置标黄标红 | ||
5xx:总和 | 左 | 设置标黄标红 | ||
Other:总和 | 左 | |||
Upstream4xx:总和 | 左 | 设置标黄标红 | ||
Upstream5xx:总和 | 左 | 设置标黄标红 | ||
入向速率TopN | 表格 | 入向速率 | ||
出向速率TopN | 表格 | 出向速率 | ||
入向丢弃速率TopN | 表格 | 入向丢弃速率 > 0 | 标红 | |
出向丢弃速率TopN | 表格 | 出向丢弃速率 > 0 | 标红 | |
最大连接TopN | 表格 | |||
新建连接TopN | 表格 | |||
丢弃连接TopN | 表格 | 丢弃连接 > 0 | 标红 | |
不健康服务器TopN | 表格 | 不健康服务器 > 0 | 标红 | |
高利用率实例 | 表格 | 新建连接利用率 > 30 || 最大连接利用率 > 30 || 入带宽利用率 > 30 || 出带宽利用率 || QPS利用率 > 30 | >50标黄 >80标红 | |
响应时间TopN | 表格 | 响应时间 > 平均值 * 2 | 动态阈值标记 | |
QPS TopN | 表格 | QPS | ||
4xx TopN | 表格 | 4xx | ||
5xx TopN | 表格 | 5xx |
NLB大盘设计参考
NLB的监控指标有45+项,我们按照横向维度和纵向维度进行分类。
横向维度可以分为NLB某个监听粒度、NLB某个VIP粒度和NLB实例粒度。多数统计指标都有监听粒度、VIP粒度、实例粒度三个版本。
监听粒度的监控指标名称中不包含Instance和Vip,比如AliyunNlb_ActiveConnection是NLB某个监听的活跃连接数统计。
VIP粒度的监控指标名称中包含Vip,比如AliyunNlb_VipActiveConnection是NLB某个VIP的活跃连接数统计。
实例粒度的监控指标名称中包含Instance,比如AliyunNlb_InstanceActiveConnection是NLB整体的活跃连接数统计之和。
纵向维度可以分为健康检查、流量、连接数、其它四大类。
分类 | 监听粒度 | 实例粒度 | VIP粒度 |
健康检查 | AliyunNlb_ListenerHeathyServerCount - 健康服务器数量 AliyunNlb_ListenerUnhealthyServerCount - 不健康服务器数量 | AliyunNlb_NlbInstanceHeathyServerCount - 负载均衡实例健康服务器数量 AliyunNlb_InstanceUnhealthyServerCount - 实例不健康服务器数量 | NA |
流量 | AliyunNlb_TrafficRXNew - 接收流量 AliyunNlb_TrafficTXNew - 发送流量 AliyunNlb_ListenerPacketRX - 接收数据包数 AliyunNlb_ListenerPacketTX - 发送数据包数 AliyunNlb_DropTrafficRX - 接收丢弃流量 AliyunNlb_DropTrafficTX - 发送丢弃流量 AliyunNlb_DropPacketRX - 接收丢弃数据包数 AliyunNlb_DropPacketTX - 发送丢弃数据包数 | AliyunNlb_InstanceTrafficRX - 实例接收流量 代码模式 | AliyunNlb_VipTrafficRX - VIP接收流量 代码模式 |
连接数 | AliyunNlb_NewConnection - 新建连接数 AliyunNlb_MaxConnection - 最大连接数 AliyunNlb_DropConnection - 丢弃连接数 AliyunNlb_ActiveConnection - 活动连接数 AliyunNlb_InactiveConnection - 非活动连接数 | AliyunNlb_InstanceNewConnection - 实例新建连接数 AliyunNlb_InstanceMaxConnection - 实例最大连接数 AliyunNlb_InstanceDropConnection - 实例丢弃连接数 AliyunNlb_InstanceActiveConnection - 实例活动连接数 AliyunNlb_InstanceInactiveConnection - 实例非活动连接数 | AliyunNlb_VipNewConnection - VIP新建连接数 AliyunNlb_VipMaxConnection - VIP最大连接数 AliyunNlb_VipDropConnection - VIP丢弃连接数 AliyunNlb_VipActiveConnection - VIP活动连接数 AliyunNlb_VipInactiveConnection - VIP非活动连接数 |
其它 | NA | NA | AliyunNlb_VipClientResetPacket - VIP客户端重置数据包数 AliyunNlb_RealServerResetPacket - VIP服务器重置数据包数 |
NLB大盘设计参考
NLB大盘,支持按照地域/资源组/实例ID/实例名称过滤部分实例。实例展示表格支持超链接到实例监控页。
由于NLB指标维度较多,建议TopN部分的维度选择为:
如果NLB实例承载单一业务,则建议TopN展示NLB实例。
如果NLB实例承载混合业务,则建议TopN展示NLB监听。
其它维度信息用于问题分析,不在大盘展示。
面板名称 | 类型 | 指标 | 坐标轴 | 说明 |
NLB速率总和 | 时间序列 | 入向速率:总和 | 左 | |
出向速率:总和 | 左 | |||
入向丢弃速率:总和 | 右 | >100标红 | ||
出向丢包速率:总和 | 右 | >100标红 | ||
NLB连接总和 | 时间序列 | 活跃连接:总和 | 左 | |
非活跃连接:总和 | 左 | |||
新建连接:总和 | 左 | |||
最大连接:总和 | 左 | |||
丢弃连接:总和 | 右 | 设置标黄和标红 | ||
健康检查 | 时间序列 | 健康服务器:总和 | 左 | 标绿 |
不健康服务器:总和 | 左 | 设置标黄标红 | ||
Reset | 时间序列 | 客户端重置数据包数 | 左 | >100标红 |
服务器重置数据包数 | 左 | >100标红 | ||
入向速率TopN | 表格 | 入向速率 | ||
出向速率TopN | 表格 | 出向速率 | ||
入向丢弃速率TopN | 表格 | 入向丢弃速率 > 0 | 标红 | |
出向丢弃速率TopN | 表格 | 出向丢弃速率 > 0 | 标红 | |
最大连接TopN | 表格 | |||
新建连接TopN | 表格 | |||
丢弃连接TopN | 表格 | 丢弃连接 > 0 | 标红 | |
不健康服务器TopN | 表格 | 不健康服务器 > 0 | 标红 | |
ClientReset TopN | 表格 | 客户端重置数据包数 > 0 | ||
ServerReset TopN | 表格 | 服务器重置数据包数 > 0 |
ALB大盘设计参考
ALB的监控指标有112+项,我们按照横向维度和纵向维度进行分类。
横向维度可以分为ALB某个监听粒度、ALB某个VIP粒度、ALB某个规则粒度、ALB某个服务器组粒度和ALB实例粒度。多数统计指标都有监听粒度、VIP粒度、实例粒度三个版本,少数指标额外提供规则粒度和服务器组粒度。
监听粒度的监控指标名称中包含Listener,比如AliyunAlb_ListenerQPS是ALB某个监听的QPS统计。
VIP粒度的监控指标名称中包含Vip,比如AliyunAlb_VipQPS是ALB某个VIP的QPS统计。
规则粒度的监控指标名称中包含Rule,比如AliyunAlb_RuleQPS是ALB某个规则的QPS统计。
服务器组粒度的监控指标名称中包含ServerGroup,比如AliyunAlb_ServerGroupQPS是ALB某个服务器组的QPS统计。
实例粒度的监控指标名称中包含LoadBalancer,比如AliyunAlb_LoadBalancerQPS是ALB整体的QPS统计之和。
纵向维度可以分为健康检查、流量、连接数、响应时间、状态码、其它六大类。
分类 | 监听粒度 | 实例粒度 | VIP粒度 | 规则粒度 | 服务器组粒度 |
健康检查 | AliyunAlb_ListenerHealthyHostCount AliyunAlb_ListenerUnHealthyHostCount | AliyunAlb_LoadBalancerHealthyHostCount AliyunAlb_LoadBalancerUnHealthyHostCount | AliyunAlb_RuleHealthyHostCount AliyunAlb_RuleUnHealthyHostCount | AliyunAlb_ServerGroupHealthyHostCount AliyunAlb_ServerGroupUnHealthyHostCount | |
流量 | AliyunAlb_ListenerInBits AliyunAlb_ListenerOutBits | AliyunAlb_LoadBalancerInBits AliyunAlb_LoadBalancerOutBits | AliyunAlb_VipInBits AliyunAlb_VipOutBits | ||
连接数 | AliyunAlb_ListenerActiveConnection AliyunAlb_ListenerInactiveConnection AliyunAlb_ListenerNewConnection AliyunAlb_ListenerMaxConnection AliyunAlb_ListenerRejectedConnection AliyunAlb_ListenerUpstreamConnectionError | AliyunAlb_LoadBalancerActiveConnection AliyunAlb_LoadBalancerInactiveConnection AliyunAlb_LoadBalancerNewConnection AliyunAlb_LoadBalancerMaxConnection AliyunAlb_LoadBalancerRejectedConnection AliyunAlb_LoadBalancerUpstreamConnectionError | AliyunAlb_VipActiveConnection AliyunAlb_VipInactiveConnection AliyunAlb_VipNewConnection AliyunAlb_VipMaxConnection AliyunAlb_VipRejectedConnection AliyunAlb_VipUpstreamConnectionError | AliyunAlb_RuleUpstreamConnectionError | AliyunAlb_ServerGroupUpstreamConnectionError |
响应时间 | AliyunAlb_ListenerRequestTime AliyunAlb_ListenerUpstreamResponseTime | AliyunAlb_LoadBalancerRequestTime AliyunAlb_LoadBalancerUpstreamResponseTime | AliyunAlb_VipRequestTime AliyunAlb_VipUpstreamResponseTime | AliyunAlb_RuleRequestTime AliyunAlb_RuleUpstreamResponseTime | AliyunAlb_ServerGroupRequestTime AliyunAlb_ServerGroupUpstreamResponseTime |
状态码 | AliyunAlb_ListenerHTTPCode2XX AliyunAlb_ListenerHTTPCode3XX AliyunAlb_ListenerHTTPCode4XX AliyunAlb_ListenerHTTPCode5XX AliyunAlb_ListenerHTTPCode500 AliyunAlb_ListenerHTTPCode502 AliyunAlb_ListenerHTTPCode503 AliyunAlb_ListenerHTTPCode504 AliyunAlb_ListenerHTTPCodeUpstream2XX AliyunAlb_ListenerHTTPCodeUpstream3XX AliyunAlb_ListenerHTTPCodeUpstream4XX AliyunAlb_ListenerHTTPCodeUpstream5XX | AliyunAlb_LoadBalancerHTTPCode2XX AliyunAlb_LoadBalancerHTTPCode3XX AliyunAlb_LoadBalancerHTTPCode4XX AliyunAlb_LoadBalancerHTTPCode5XX AliyunAlb_LoadBalancerHTTPCode500 AliyunAlb_LoadBalancerHTTPCode502 AliyunAlb_LoadBalancerHTTPCode503 AliyunAlb_LoadBalancerHTTPCode504 AliyunAlb_LoadBalancerHTTPCodeUpstream2XX AliyunAlb_LoadBalancerHTTPCodeUpstream3XX AliyunAlb_LoadBalancerHTTPCodeUpstream4XX AliyunAlb_LoadBalancerHTTPCodeUpstream5XX | AliyunAlb_VipHTTPCode2XX AliyunAlb_VipHTTPCode3XX AliyunAlb_VipHTTPCode4XX AliyunAlb_VipHTTPCode5XX AliyunAlb_VipHTTPCode500 AliyunAlb_VipHTTPCode502 AliyunAlb_VipHTTPCode503 AliyunAlb_VipHTTPCode504 | AliyunAlb_RuleHTTPCodeUpstream2XX AliyunAlb_RuleHTTPCodeUpstream3XX AliyunAlb_RuleHTTPCodeUpstream4XX AliyunAlb_RuleHTTPCodeUpstream5XX AliyunAlb_RuleHTTPCodeUpstream2XXRatio AliyunAlb_RuleHTTPCodeUpstream3XXRatio AliyunAlb_RuleHTTPCodeUpstream4XXRatio AliyunAlb_RuleHTTPCodeUpstream5XXRatio | AliyunAlb_ServerGroupHTTPCodeUpstream2XX AliyunAlb_ServerGroupHTTPCodeUpstream3XX AliyunAlb_ServerGroupHTTPCodeUpstream4XX AliyunAlb_ServerGroupHTTPCodeUpstream5XX |
其它 | AliyunAlb_ListenerQPS AliyunAlb_ListenerNonStickyRequest AliyunAlb_ListenerUpstreamTLSNegotiationError AliyunAlb_ListenerClientTLSNegotiationError AliyunAlb_ListenerHTTPFixedResponse AliyunAlb_ListenerHTTPRedirect | AliyunAlb_LoadBalancerQPS AliyunAlb_LoadBalancerNonStickyRequest AliyunAlb_LoadBalancerUpstreamTLSNegotiationError AliyunAlb_LoadBalancerClientTLSNegotiationError AliyunAlb_LoadBalancerHTTPFixedResponse AliyunAlb_LoadBalancerHTTPRedirect | AliyunAlb_VipQPS AliyunAlb_VipNonStickyRequest AliyunAlb_VipUpstreamTLSNegotiationError AliyunAlb_VipClientTLSNegotiationError AliyunAlb_VipHTTPFixedResponse AliyunAlb_VipHTTPRedirect | AliyunAlb_RuleQPS AliyunAlb_RuleNonStickyRequest AliyunAlb_RuleUpstreamTLSNegotiationError | AliyunAlb_ServerGroupQPS AliyunAlb_ServerGroupNonStickyRequest AliyunAlb_ServerGroupUpstreamTLSNegotiationError |
ALB大盘设计参考
ALB大盘,支持按照地域/资源组/实例ID/实例名称过滤部分实例。实例展示表格支持超链接到实例监控页。
由于ALB指标维度较多,建议TopN部分的维度选择为:
如果ALB实例承载单一业务,则建议TopN展示ALB实例。
如果ALB实例承载混合业务,则建议TopN展示ALB监听。
其它维度信息用于问题分析,不在大盘展示。
面板名称 | 类型 | 指标 | 坐标轴 | 说明 |
ALB速率总和 | 时间序列 | 入向速率:总和 | 左 | |
出向速率:总和 | 左 | |||
ALB连接总和 | 时间序列 | 活跃连接:总和 | 左 | |
非活跃连接:总和 | 左 | |||
新建连接:总和 | 左 | |||
最大连接:总和 | 左 | |||
拒绝连接:总和 | 右 | 设置标黄和标红 | ||
上游拒绝连接:总和 | 右 | 设置标黄和标红 | ||
健康检查 | 时间序列 | 健康服务器:总和 | 左 | 标绿 |
不健康服务器:总和 | 左 | 设置标黄标红 | ||
TLS错误 | 时间序列 | TLS协商错误:总和 | 左 | 设置标黄标红 |
上游TLS协商错误:总和 | 左 | 设置标黄标红 | ||
七层QPS | 时间序列 | QPS:总和 | 左 | |
七层响应时间 | 时间序列 | 响应时间:最大、最小、平均 | 左 | 设置标黄标红 |
后端响应时间:最大、最小、平均 | 左 | |||
七层状态码统计 | 时间序列 | 2xx:总和 | 左 | |
3xx:总和 | 左 | |||
4xx:总和 | 左 | 设置标黄标红 | ||
5xx:总和 | 左 | 设置标黄标红 | ||
Upstream4xx:总和 | 左 | 设置标黄标红 | ||
Upstream5xx:总和 | 左 | 设置标黄标红 | ||
入向速率TopN | 表格 | 入向速率 | ||
出向速率TopN | 表格 | 出向速率 | ||
最大连接TopN | 表格 | |||
新建连接TopN | 表格 | |||
丢弃连接TopN | 表格 | 丢弃连接 > 0 | 标红 | |
不健康服务器TopN | 表格 | 不健康服务器 > 0 | 标红 | |
TLS协商错误TopN | 表格 | TLS协商错误 > 0 | 标红 | |
上游TLS协商错误TopN | 表格 | 上游TLS协商错误 > 0 | 标红 | |
响应时间TopN | 表格 | 响应时间 > 平均值 * 2 | 标黄标红 | |
QPS TopN | 表格 | QPS | ||
4xx TopN | 表格 | 4xx | ||
5xx TopN | 表格 | 5xx |
GA大盘设计参考
GA大盘,支持按照地域/资源组/实例ID/实例名称过滤部分实例。实例展示表格支持超链接到实例监控页。
面板名称 | 类型 | 指标 | 坐标轴 | 说明 |
前端IP速率总和 | 时间序列 | 入向速率:总和 | 左 | |
出向速率:总和 | 左 | |||
入向丢弃速率:总和 | 右 | >100标红 | ||
出向丢包速率:总和 | 右 | >100标红 | ||
前端IP带宽利用率 | 时间序列 | 入向带宽利用率:最大、最小、平均 | 左 | >50标黄 >80标红 |
出向带宽利用率:最大、最小、平均 | 左 | |||
前端IP活跃连接数总和 | 时间序列 | 活跃连接:总和 | 左 | |
后端分组速率总和 | 时间序列 | 入向速率:总和 | 左 | |
出向速率:总和 | 左 | |||
入向丢弃速率:总和 | 右 | >100标红 | ||
出向丢包速率:总和 | 右 | >100标红 | ||
后端分组带宽利用率 | 时间序列 | 入向带宽利用率:最大、最小、平均 | 左 | >50标黄 >80标红 |
出向带宽利用率:最大、最小、平均 | 左 | |||
隧道延迟 | 时间序列 | 隧道延迟:最大、最小、平均 | 动态阈值标记 | |
前端入速率TopN | 表格 | 入速率 | ||
前端出速率TopN | 表格 | 出速率 | ||
前端入向带宽利用率TopN | 表格 | 入向带宽利用率 > 30 | 标红标黄 | |
前端出向带宽利用率TopN | 表格 | 出向带宽利用率 > 30 | 标红标黄 | |
活跃连接数TopN | 表格 | 活跃连接数 | ||
后端分组入向带宽利用率TopN | 表格 | 后端分组入向带宽利用率TopN | ||
后端分组出向带宽利用率TopN | 表格 | 后端分组出向带宽利用率TopN | ||
隧道延迟TopN | 表格 | 隧道延迟 | 动态阈值 |
NAT大盘设计参考
NAT大盘,支持按照地域/资源组/实例ID/实例名称过滤部分实例。实例展示表格支持超链接跳转到实例监控页。
面板名称 | 类型 | 指标 | 坐标轴 | 说明 |
NAT连接数总和 | 时间序列 | 活跃连接数:总和 | 左 | |
新建连接数:总和 | 左 | |||
丢弃活跃连接数:总和 | 右 | >0标黄 >100标红 | ||
丢弃新建连接数:总和 | 右 | >0标黄 >100标红 | ||
NAT连接数利用率 | 时间序列 | 活跃连接数利用率:最大,最小,平均 | 左 | >50标黄 >80标红 |
新建连接数利用率:最大,最小,平均 | 左 | |||
速率总和 | 时间序列 | 公网侧入向速率:总和 | 左 | 入向出向速率差 > 阈值时标红 |
公网侧出向速率:总和 | 左 | |||
内网侧入向速率:总和 | 左 | |||
内网侧出向速率:总和 | 左 | |||
活跃连接数TopN实例 | 表格 | 活跃连接数 | ||
新建连接数TopN | 表格 | 新建连接数 | ||
丢弃活跃连接数TopN | 表格 | 丢弃活跃连接数 > 0 | >0标黄 >100标红 | |
丢弃新建连接数TopN | 表格 | 丢弃新建连接数 > 0 | >0标黄 >100标红 | |
活跃连接数利用率TopN | 表格 | 活跃连接数利用率 > 30 | >50标黄 >80标红 | |
新建连接数利用率TopN | 表格 | 活跃连接数利用率 > 30 | >50标黄 >80标红 | |
入向速率TopN | 表格 | 公网入向速率 | ||
出向速率TopN | 表格 | 公网出向速率 |
6.1.3 全球组网业务大盘
高速通道-物理端口设计参考
物理端口大盘,支持按照地域/资源组/实例ID/实例名称过滤部分实例。实例展示表格支持超链接到实例监控页。
面板名称 | 类型 | 指标 | 坐标轴 | 说明 |
速率总和 | 时间序列 | 上云速率:总和 | 左 | |
下云速率:总和 | 左 | |||
端口错包 | 时间序列 | 端口入向错包:总和 | 左 | 标黄标红 |
端口出向错包:总和 | 左 | 标黄标红 | ||
断联专线数 | 时间序列 | 端口down:计数 | 左 | 标红 |
上云速率TopN | 表格 | 上云速率 | ||
下云速率TopN | 表格 | 下云速率 | ||
端口入向错包TopN | 表格 | 端口入向错包 > 0 | 标红 | |
端口出向错包TopN | 表格 | 端口出向错包 > 0 | 标红 | |
断联专线实例 | 表格 | 端口down == 1 | 标红 |
高速通道-VBR大盘设计参考
VBR大盘,支持按照地域/资源组/实例ID/实例名称过滤部分实例。实例展示表格支持超链接到实例监控页。
面板名称 | 类型 | 指标 | 坐标轴 | 说明 |
速率总和 | 时间序列 | 上云速率:总和 | 左 | |
下云速率:总和 | 左 | |||
限速丢包:总和 | 右 | >100标红 | ||
丢包 | 时间序列 | 端口入向丢包:总和 | 左 | 标黄标红 |
端口出向丢包:总和 | 左 | 标黄标红 | ||
探测丢包 | 时间序列 | 探测丢包:最大、最小、平均 | 左 | >0标黄 >10标红 |
探测时延 | 时间序列 | 探测时延:最大、最小、平均 | 左 | 动态阈值 |
上云速率TopN | 表格 | 上云速率 | ||
下云速率TopN | 表格 | 下云速率 | ||
限速丢包TopN | 表格 | 限速丢包 > 0 | 标红 | |
端口入向丢包TopN | 表格 | 端口入向丢包 > 0 | 标红 | |
端口出向错包TopN | 表格 | 端口出向丢包 > 0 | 标红 | |
探测丢包TopN | 表格 | 探测丢包 > 0 | >0标黄 >10标红 | |
探测时延TopN | 表格 | 探测时延 |
ECR大盘设计参考
ECR大盘,支持按照地域/资源组/实例ID/实例名称过滤部分实例。实例展示表格支持超链接到实例监控页。
面板名称 | 类型 | 指标 | 坐标轴 | 说明 |
速率总和 | 时间序列 | 入向速率:总和 | 左 | |
出向速率:总和 | 左 | |||
跨域限速丢包速率总和 | 时间序列 | 限速丢包比特速率:总和 | 左 | 标黄标红 |
限速丢包报文速率:总和 | 右 | 标黄标红 | ||
入向速率TopN | 表格 | 入向速率 | ||
出向速率TopN | 表格 | 出向速率 | ||
跨域速率TopN | 表格 | 跨域速率 | ||
跨域限速TopN | 表格 | 限速丢包 > 0 | 标红 |
VPN大盘设计参考
VPN大盘,支持按照地域/资源组/实例ID/实例名称过滤部分实例。实例展示表格支持超链接到实例监控页。
面板名称 | 类型 | 指标 | 坐标轴 | 说明 |
速率总和 | 时间序列 | VPN网关上云速率:总和 | 左 | |
IPSEC连接上云速率:总和 | 左 | |||
VPN网关下云速率:总和 | 右 | |||
IPSEC连接下云速率:总和 | 右 | |||
VPN网关利用率 | 时间序列 | 上云带宽利用率:最大、最小、平均 | 左 | 标黄标红 |
下云带宽利用率:最大、最小、平均 | 左 | 标黄标红 | ||
在线SSL客户端数 | 时间序列 | SSL客户端数:总和 | 左 | |
上云带宽利用率TopN | 表格 | 上云带宽利用率 > 30 | >50标黄 >80标红 | |
下云带宽利用率TopN | 表格 | 下云带宽利用率 > 30 | >50标黄 >80标红 | |
VPN网关上云速率TopN | 表格 | VPN网关上云速率 | ||
VPN网关下云速率 | 表格 | VPN网关下云速率 | ||
IPSEC连接上云速率 | 表格 | IPSEC连接上云速率 | ||
IPSEC连接下云速率 | 表格 | IPSEC连接下云速率 |
TR大盘设计参考
TR跨域大盘,支持按照地域/资源组/实例ID/实例名称过滤部分实例。实例展示表格支持超链接到实例监控页。
面板名称 | 类型 | 指标 | 坐标轴 | 说明 |
TR流量 | 时间序列 | 入向速率:总和 | 左 | 入向出向速率差 > 阈值时标红 |
出向速率:总和 | 左 | |||
黑洞丢弃速率:总和 | 右 | |||
无路由丢弃速率:总和 | 右 | |||
Attachment连接流量 | 时间序列 | 入向速率:总和 | 左 | 入向出向速率差 > 阈值时标红 |
出向速率:总和 | 左 | |||
黑洞丢弃速率:总和 | 左 | |||
TR入流量TopN | 表格 | TR入向速率 | ||
TR出流量TopN | 表格 | TR出向速率 | ||
TR黑洞丢弃TopN | 表格 | TR黑洞丢弃速率 | ||
TR无路由丢弃TopN | 表格 | TR无路由丢弃速率 | ||
Attachment连接入流量TopN | 表格 | Attachment连接入流量 | ||
Attachment连接出流量TopN | 表格 | Attachment连接出流量 | ||
Attachment连接丢弃TopN | 表格 | Attachment连接黑洞丢弃速率 |
CEN跨域设计参考
CEN跨域大盘,支持按照地域/资源组/实例ID/实例名称过滤部分实例。实例展示表格支持超链接到实例监控页。
面板名称 | 类型 | 指标 | 坐标轴 | 说明 |
CEN流量 | 时间序列 | 区域出速率:总和 | 左 | 出向速率差 > 阈值时标红 |
大区出速率:总和 | 左 | |||
带宽包平均出速率:总和 | 左 | 微突发提示:
| ||
带宽包峰值出速率:总和 | 左 | |||
区域限速丢包速率:总和 | 右 | >100kbps标红 | ||
CEN利用率 | 时间序列 | 区域利用率:最大、最小、平均 | 左 | >50标黄 >80标红 |
大区利用率:最大、最小、平均 | 左 | >50标黄 >80标红 | ||
带宽包平均利用率:最大、最小、平均 | 左 | >50标黄 >80标红 | ||
带宽包峰值利用率:最大、最小、平均 | 左 | >50标黄 >80标红 | ||
CEN QoS流量 | 时间序列 | QoS出速率:总和 | 左 | |
QoS限速丢包速率:总和 | 右 | >100kbps标红 | ||
CEN QoS利用率 | 时间序列 | QoS平均利用率:最大、最小、平均 | 左 | >50标黄 >80标红 |
QoS峰值利用率:最大、最小、平均 | 左 | >50标黄 >80标红 | ||
区域出速率TopN | 表格 | 地域出速率 | ||
区域利用率TopN | 表格 | 区域利用率 | ||
区域限速丢包速率TopN | 表格 | 区域限速丢包速率 | ||
QoS出速率TopN | 表格 | QoS出速率 | ||
QoS峰值利用率TopN | 表格 | QoS峰值利用率 | ||
QoS限速丢包速率TopN | 表格 | QoS限速丢包速率 |
6.2 监控配置参考
6.2.1 公网服务监控配置参考
对于EIP后面挂自建网关提供公网服务入口,请参考以下建议对公网入口的EIP进行云监控的告警规则配置:
监控对象 | 告警级别 | 监控指标和条件 |
EIP | Info | 当以下某个条件发生时:
|
Warn | 当以下某个条件发生时:
| |
Critical | 当以下某个条件发生时:
| |
共享带宽 | Info | 当以下某个条件发生时:
|
Warn | 当以下某个条件发生时:
| |
Critical | 当以下某个条件发生时:
| |
CDT | Info | 当以下某个条件发生时:
|
Warn | 当以下某个条件发生时:
| |
Critical | 当以下某个条件发生时:
|
当带宽负载超过30%时,系统进入高负载状态,业务可能出现访问缓慢、偶发超时等SLA降级的行为。建议进行容量评估考虑扩容。
当带宽负载超过50%时,在上一个等级的基础上,多AZ容灾架构失效,一旦发生某个AZ的服务中断,则剩余的AZ无法承载全部的业务。建议立即进行扩容。
当带宽负载超过85%时,在上一个等级的基础上,系统负载严重超过系统设计。除了立即扩容外,还应该考虑是否存在业务发展超出预期、安全攻击等超出预期的行为,优化系统设计。
6.2.2 网元服务监控配置参考
CLB/NBL/ALB
对于CLB/NLB/ALB提供公网服务入口,除了参考上一个小节配置公网入口的监控外,请参考以下建议对CLB/NLB/ALB进行云监控的告警规则配置:
监控对象 | 告警级别 | 监控指标和条件 |
CLB | Info | 当实例维度以下某个条件发生时:
当port维度以下某个条件发生时:
|
Warn | 当实例维度以下某个条件发生时:
当port维度以下某个条件发生时:
| |
Critical | 当实例维度以下某个条件发生时:
当port维度以下某个条件发生时:
| |
NLB | Info | 当实例维度以下某个条件发生时:
当port维度以下某个条件发生时:
|
Warn | 当实例维度以下某个条件发生时:
当port维度以下某个条件发生时:
| |
Critical | 当实例维度以下某个条件发生时:
当port维度以下某个条件发生时:
| |
ALB | Info | 当loadBalancer维度以下某个条件发生时:
当listener维度以下某个条件发生时:
|
Warn | 当loadBalancer维度以下某个条件发生时:
当listener维度以下某个条件发生时:
| |
Critical | 当loadBalancer维度以下某个条件发生时:
当listener维度以下某个条件发生时:
|
应用层相关指标较多且与业务紧密相关,请根据实际业务反馈持续优化相关监控及各级别的阈值的配置。
6.2.3 混合云容灾监控配置参考
专线连接
如果使用专线连接阿里云,请参考以下建议对专线进行云监控的告警规则配置:
监控对象 | 告警级别 | 监控指标和条件 |
高速通道-物理端口 | Info | 当以下某个条件发生时:
|
Warn | 当以下某个条件发生时:
| |
Critical | 当以下某个条件发生时:
| |
高速通道-边界路由器 | Info | 当以下某个条件发生时:
|
Warn | 当以下某个条件发生时:
| |
Critical | 当以下某个条件发生时:
| |
高速通道-专线网关 | Info | 当转发路由器(TR)实例监控维度以下某个条件发生时:
当跨域连接维度以下某个条件发生时:
|
Warn | 当转发路由器(TR)实例监控维度以下某个条件发生时:
当跨域连接维度以下某个条件发生时:
| |
Critical | 当转发路由器(TR)实例监控维度以下某个条件发生时:
当跨域连接维度以下某个条件发生时:
| |
高速通道-对等连接 | Info | 当实例维度以下某个条件发生时:
|
Warn | 当实例维度以下某个条件发生时:
| |
Critical | 当实例维度以下某个条件发生时:
|
订阅以下云监控系统事件并推送告警:
产品:高速通道-专线连接;事件类型:Down;事件名称:BGP Peer状态从Established变为Down
VPN网关
如果使用VPN网关接入阿里云,请参考以下建议对VPN进行云监控的告警规则配置:
监控对象 | 告警级别 | 监控指标和条件 |
VPN网关 | Info | 当实例维度以下某个条件发生时:
|
Warn | 当实例维度以下某个条件发生时:
| |
Critical | 当实例维度以下某个条件发生时:
|
注:如果“IPsec连接绑定CEN/TR”的方式组网,其监控方式参考“CEN/TR全球组网”小节。
订阅以下云监控系统事件并推送告警:
产品:VPN网关;事件类型:异常、状态通知;事件名称:证书到期、IPSEC连接隧道全部协商失败、IPSEC隧道协商失败、health check failed、vpn连接健康检查失败
CEN/TR全球组网
如果使用CEN/TR进行全球组网,请参考以下建议对CEN/TR进行云监控的告警规则配置:
监控对象 | 告警级别 | 监控指标和条件 |
云企业网-地域监控 | Info | 当以下某个条件发生时:
|
Warn | 当以下某个条件发生时:
| |
Critical | 当以下某个条件发生时:
| |
云企业网-区域监控 | Info | 当以下某个条件发生时:
|
Warn | 当以下某个条件发生时:
| |
Critical | 当以下某个条件发生时:
| |
云企业网-转发路由器(当使用企业版时配置) | Info | 当转发路由器(TR)实例AZ级监控维度以下某个条件发生时:
当转发路由器(TR)连接AZ级监控维度以下某个条件发生时:
|
Warn | 当转发路由器(TR)实例AZ级监控维度以下某个条件发生时:
当转发路由器(TR)连接AZ级监控维度以下某个条件发生时:
| |
Critical | 当转发路由器(TR)实例AZ级监控维度以下某个条件发生时:
当转发路由器(TR)连接AZ级监控维度以下某个条件发生时:
|
注:
TR连接带宽规格说明见这里:使用限制
订阅以下云监控系统事件并推送告警:
产品:云企业网;事件:90%QuotaExceeded;事件名称:超过Quota 90%事件
当在TR中创建VPN Attachment时,请参考以下建议对VPN连接进行云监控的告警规则配置:
监控对象 | 告警级别 | 监控指标和条件 |
vpn连接 | Info | 当以下某个条件发生时:
|
Warn | 当以下某个条件发生时:
| |
Critical | 当以下某个条件发生时:
| |
vpn网关 | Critical | 当vpnconnection维度以下某个条件发生时:
|
注:
vpn连接各规格说明见这里:使用限制
7 实操指引
云产品监控指标接入ARMS Prometheus,配置自定义大盘,配置告警:云服务可观测
8 附录
大盘配置方法
1、阿里云云监控Prometheus
数据接入:进入应用实时监控服务ARMS > 接入中心,选择相应的产品(如EIP、ALB),然后按照提示完成接入。
自定义大盘:进入应用实时监控服务ARMS > 接入管理 > 云服务接入环境,选择相应的产品,然后参考第六部分参考案例自定义大盘。
2、非阿里云云监控Prometheus(自建或者三方)的数据接入
在阿里云 ECS 或 ACK 集群中部署一个轻量 Prometheus,或使用 Prometheus Agent 模式。
配置采集阿里云资源指标的插件(可通过 Exporter、API、日志等方式),可以参考开源的aliyun_exporter插件。
在 prometheus.yml 中配置 remote_write 指向您自建 Prometheus 的 /api/v1/write 接口。
重启 Prometheus,数据将被发送到您的本地实例。
3、其它监控平台的数据接入
需要自行开发数据接入方案,可以以非阿里云云监控Prometheus的采集插件为参考
告警配置方法
1、阿里云云监控Prometheus
进入应用实时监控服务ARMS > 告警规则 > 创建告警规则,注意选择Prometheus实例所在的地域。
依次配置规则名称,Prometheus实例,自定义 PromQL,严重等级,告警阈值
2、阿里云云监控
进入阿里云云监控 > 报警服务 > 报警规则 > 创建报警规则
选择产品
创建规则,定义紧急/告警/普通的规则
建议
定期(每月,甚至每周)组织团队进行网络巡检,并落实明确的优化计划,直至风险完全消除。
建议
工具的价值在于实战,但准备必须在平时。唯有通过持续学习与演练,才能确保问题来临时,工具真正成为我们的利器。