事件中心
网络智能服务 NIS(Network Intelligence Service)事件中心提供主动告警能力,帮助您及时获知风险,查看可能受影响的资源,避免业务受损。
应用场景
NIS事件由阿里云定义,用于记录和通知云网络资源的信息,例如运维任务执行情况、资源是否出现异常、资源状态变化等。
通知风险和异常
如果发生了实例资源可用性或性能受损的事件,例如因实例超规格使用造成性能受损、因运营商链路丢包影响业务可用性、实例到期费用预警等,阿里云会将事件推送至NIS控制台的事件中心进行展示,建议您及时响应这些事件,避免因资源可用性或性能受损影响业务。
实现自动化运维
在NIS控制台展示的事件均定义了事件状态,方便区分相应系统运维任务的执行情况,而且事件产生及状态变化时会上报至云监控,方便您进一步根据自身需要搭建事件驱动的自动化运维体系。
使用限制
已停售的实例规格族不支持事件功能,更多信息,请参见各云服务的停售公告。
基本信息
事件类型
事件由阿里云定义,用于记录和通知云网络资源的信息。按照起因进行分类,事件可以分为:
类别 | 说明 | 举例事件 |
问题事件 | 已经造成业务受损的异常事件,并且7天内状态一直处于进行中的事件。 |
|
风险事件 | 可能造成业务受损的异常事件,并且7天内状态一直处于进行中的事件。 |
|
事件等级
按照对实例正常运行的影响程度进行划分,事件分为以下几个等级:
严重:影响重大,需要尽快处理,否则可能导致实例无法使用。
警告:有一定影响,需要您在影响持续期间加以关注,或者选择合适时间处理。
信息:您自行选择是否关注即可。
关于事件Code、名称、说明与处理建议等。具体信息,请参见事件汇总。
事件汇总
汇总NIS支持的事件,并为各事件提供处理建议。
问题事件不支持监控性能共享型CLB实例。
问题事件
事件code | 事件名称 | 事件等级 | 云监控事件名称 | 事件说明和影响 | 用户侧处理建议 |
公网实例 | |||||
problem-internetBandwidthOverlimit | 公网带宽超限丢包 | 严重 | 实例带宽超限丢包 | 公网实例的实际带宽流量超出了当前带宽规格,出现丢包情况。 其中公网实例指与公网流量相关的实例,如:弹性公网IP实例、带宽包实例或传统型负载均衡CLB实例等。 | 建议扩容,提升带宽峰值。 |
公网NAT网关 | |||||
problem-nat-sessionOverLimit | NAT会话超限丢弃连接 | 严重 | NAT会话超限丢弃连接 | 公网NAT网关会话数量超出规格,出现新建会话失败情况,且丢包>100 packet/s。 | 建议升配或拆分为多个公网NAT网关实例。具体操作,请参见管理NAT网关配额和创建和管理公网NAT网关实例。 |
problem-nat-sessionNewOverLimit | NAT新建会话超限丢弃连接 | 严重 | NAT新建会话超限丢弃连接 | 公网NAT网关新建会话速率超出规格,出现新建会话失败情况,且丢包>100 packet/s。 | |
problem-nat-portAllocationError | NAT源端口分配失败 | 严重 | NAT源端口分配失败 | 公网NAT网关实例配置的EIP个数过少,出现源端口分配失败情况,且丢包>10 packet/s。 说明 该事件暂不支持设置订阅。 | 建议增加绑定到公网NAT网关实例的EIP。具体操作,请参见绑定EIP。 |
传统型负载均衡CLB(Classic Load Balancer) | |||||
problem-clb-connectionOverLimit | CLB会话超限新建连接丢失 | 严重 | CLB会话超限新建连接丢失 | CLB新建连接或并发连接数超出规格,出现新建会话失败情况,丢弃连接速率较高。 | 建议升配或更改为网络型负载均衡NLB(Network Load Balancer)或应用型负载均衡ALB(Application Load Balancer)实例。 具体操作,请参见管理CLB配额。NLB和ALB的产品介绍,请参见什么是网络型负载均衡NLB、什么是应用型负载均衡ALB。 |
problem-clb-bandwidthOverLimit | CLB带宽规格超限丢包 | 严重 | CLB带宽规格超限丢包 | CLB实际流量超出带宽规格,出现丢包情况。 | 建议扩容。具体操作,请参见调整性能保障型实例的规格。 |
problem-clb-connectionFail | CLB失败连接数骤增 | 严重 | CLB失败连接数骤增 | CLB因为(后端服务器规格超限/负载过高/业务异常),出现失败连接突增情况。 | 视原因建议(升配后端服务器规格/升配CLB规格/检查后端业务状态)。 |
NLB | |||||
problem-nlb-connectionFail | NLB失败连接数骤增 | 严重 | NLB失败连接数骤增 | NLB实例的VIP(Virtual IP address)已经连续十分钟出现失败连接数突增现象,可能存在原因:
| 建议检查后端服务器水位或业务状态是否异常。 具体操作,请参见NLB实例诊断。 |
problem-nlb-newConnectionSurge | NLB新建连接丢弃 | 严重 | NLB新建连接丢弃 | NLB实例的VIP因为新建连接数骤增,连续出现(毫秒/秒级)新建连接请求丢弃现象。 |
建议拆分多个NLB实例,将流量分配到不同的NLB实例或联系客户经理单独报备。 |
problem-nlb-newConnectionOverLimit | NLB新建连接超限 | 严重 | NLB新建连接超限 | NLB实例的VIP新建连接已经超出NLB单个VIP自动弹性上限,连续出现新建连接请求丢弃现象。 | |
problem-nlb-concurrentConnectionOverLimit | NLB并发连接超限 | 严重 | NLB并发连接超限 | NLB实例的VIP并发连接数已经超出NLB单个VIP自动弹性上限,连续出现新建连接请求丢弃现象。 | |
ALB | |||||
problem-alb-intranetBandwidthOverLimit | ALB私网带宽超限产生丢包 | 严重 | ALB私网带宽超限产生丢包 | ALB实例的VIP地址上出方向或入方向带宽达到上限,ALB域名解析的单一VIP有带宽限额。 | 建议为ALB实例设置CNAME域名解析。具体操作,请参见设置CNAME域名解析。 |
problem-alb-sessionOverLimit | ALB会话超限导致新建连接丢失 | 严重 | ALB会话超限导致新建连接丢失 | ALB实例的VIP地址上新建连接或并发连接数超出上限,出现新建会话失败情况。ALB域名解析的单一VIP有新建连接数限额。 | |
problem-alb-qpsOverLimit | ALB QPS超限产生503错误码 | 严重 | ALB QPS超限产生503错误码 | ALB实例的VIP地址上最大每秒请求数(QPS)达到VIP上限,ALB域名解析的单一VIP有QPS限额。 | |
云企业网CEN(Cloud Enterprise Network) | |||||
problem-cen-routeOverLimit | CEN路由数量超限 | 严重 | CEN路由数量超限 | CEN路由配额超限,可能引起网络问题。 | 建议升级转发路由器TR(Transit Router)具体操作,请参见升级基础版转发路由器。 |
TR | |||||
problem-cen-vpcAttachBandwidthOverLimit | VPC连接带宽超限丢包 | 严重 | VPC连接带宽超限丢包 | CEN转发路由器实际流量超出带宽规格,出现丢包情况。 | 建议扩容,提升带宽峰值。具体操作,请参见管理云企业网配额。 |
problem-cen-peerAttachBandwidthOverLimit | 跨域连接带宽超限丢包 | 严重 | 跨域连接带宽超限丢包 | CEN转发路由器实际流量超出带宽规格,出现丢包情况。 | 建议扩容,提升带宽峰值。具体操作,请参见管理云企业网配额。 |
风险事件
事件code | 事件名称 | 事件等级 | 云监控事件名称 | 事件说明和影响 | 用户侧处理建议 |
公网实例 | |||||
risk-internetPacketLoss | 公网链路丢包风险 | 警告 | 公网链路丢包风险 | 阿里云某地域到另一地域某运营商的物理链路发生了丢包告警,则当前账号在此链路的带宽流量可能受到影响(最近十分钟带宽大于0.5 Mbps或者链路丢包率超过50%)。 重要 监控该事件之前,请先开通指定地域或IP的公网数据。具体操作,请参见开通公网流量分析。 | 请关注这条链路上的实例带宽是否符合实际业务要求(可参考流量分析中五元组数据),若有异常可考虑将关键业务迁移到其他地域;若无异常可忽略此告警。 |
risk-internetBandwidthOverlimit | 公网带宽超限丢包风险 | 警告 | 公网带宽超限丢包风险 | 根据历史数据统计,在未来某一时刻实例实际带宽流量超出当前规格的发生概率大于90%。 | 建议关注,若出现超规格情况建议扩容。 |
VPN 网关 | |||||
risk-vpn-bpsOverLimit | VPN带宽超限风险 | 警告 | VPN带宽超限风险 | VPN实例转发流量最近十分钟带宽利用率有3次超过90%。 | 请关注这条链路上的实例带宽是否符合实际业务要求,建议变配VPN网关实例或新购实例扩大VPN的带宽;若无异常可忽略此告警。 |
risk-vpn-bgpRouteLimit | BGP动态路由数量超限风险 | 警告 | BGP动态路由数量超限风险 | VPN实例最近十分钟学习到的BGP动态路由数量已超过实例BGP路由配额的90%。 | 建议关注,若出现超规格情况建议您可以根据实际网络规划在对端VPN网关进行网段聚合。 |
操作导航
操作 | 说明及相关文档 |
查看事件 | 您可以通过以下方式查看事件: |
订阅事件 | 您可以通过云监控自主订阅事件,订阅后,将以电话、短信、邮件等方式及时通知您事件的发生与进展,请参见设置NIS事件订阅。 |
解决事件 | 查看事件之后,您可以根据相应的建议解决问题,请参见事件汇总。 |