事件中心

更新时间: 2023-09-21 18:25:57

网络智能服务 NIS(Network Intelligence Service)事件中心提供主动告警能力,帮助您及时获知风险,查看可能受影响的资源,避免业务受损。本文为您介绍如何使用NIS事件中心。

应用场景

NIS事件由阿里云定义,用于记录和通知云网络资源的信息,例如运维任务执行情况、资源是否出现异常、资源状态变化等。

  • 通知风险和异常

    如果发生了实例资源可用性或性能受损的事件,例如因实例超规格使用造成性能受损、因运营商链路丢包影响业务可用性、实例到期费用预警等,阿里云会将事件推送至NIS控制台的事件中心进行展示,建议您及时响应这些事件,避免因资源可用性或性能受损影响业务。

  • 实现自动化运维

    NIS控制台展示的事件均定义了事件状态,方便区分相应系统运维任务的执行情况,而且事件产生及状态变化时会上报至云监控,方便您进一步根据自身需要搭建事件驱动的自动化运维体系。

使用限制

已停售的实例规格族不支持事件功能,更多信息,请参见各云服务的停售公告。

操作导航

操作

说明及相关文档

了解事件

操作前,请了解事件类型与等级。具体信息,请参见基本信息

查看事件

您可以在通过以下方式查看事件:

解决事件

查看事件之后,您可以根据相应的建议解决事件,请参见事件汇总

基本信息

事件类型

事件由阿里云定义,用于记录和通知云网络资源的信息。按照起因进行分类,事件可以分为:

类别

说明

举例事件

问题事件

已经造成业务受损的异常事件,并且7天内状态一直处于进行中的事件。

  • 公网带宽规格超限导致丢包

  • 实例欠费导致停机

风险事件

可能造成业务受损的异常事件,并且7天内状态一直处于进行中的事件。

  • 物理链路丢包对业务的影响风险

  • 带宽流量用量突增突减的故障风险

  • 实例欠费即将停机风险

事件等级

按照对实例正常运行的影响程度进行划分,事件分为以下几个等级:

  • 严重:影响重大,需要尽快处理,否则可能导致实例无法使用。

  • 警告:有一定影响,需要您在影响持续期间加以关注,或者选择合适时间处理。

  • 信息:您自行选择是否关注即可。

说明

关于事件Code、名称、说明与处理建议等。具体信息,请参见事件汇总

查看事件

查看问题事件

问题事件:已经造成业务受损的异常事件,并且7天内状态一直处于进行中的事件。

  1. 登录网络智能服务管理控制台
  2. 在左侧导航栏选择事件中心

  3. 事件中心页面的问题事件页签,查看问题事件列表,以及具体事件ID,事件内容,事件状态,发生时间、地域等信息。

    您还可以配置以下信息,查看目标问题事件。

    配置项

    描述

    时间范围

    选择要查看问题事件的时间范围。时间段的起始时间最早可选择7天前。

    受影响资源

    输入受影响的资源的实例ID。

    事件内容

    输入事件内容。

  4. 事件状态列单击查看趋势,查看历史告警情况。

  5. 在目标问题事件的操作列单击查看详情,您可以查看以下内容。

    • 事件信息:包含该问题事件的ID、等级、内容、状态、发生时间、地域、及可能受影响的资源。单击资源的实例ID,即可跳转到该实例的实例详情页。

    • 水位信息:以事件发生时间为准,展示前一小时的带宽水位超限情况,预测后一小时的带宽水位超限情况。

    • 该实例最近10次告警记录:在一定时间范围内,展示实例的告警记录。

查看风险事件

风险事件:可能造成业务受损的异常事件,并且7天内状态一直处于进行中的事件。

  1. 登录网络智能服务管理控制台
  2. 在左侧导航栏选择事件中心

  3. 事件中心页面的风险事件页签,查看风险事件列表,以及具体事件ID,内容,状态,预测水位超限开始时间,地域等信息。

    您还可以配置以下信息,查看目标风险事件。

    配置项

    描述

    时间范围

    选择要查看问题事件的时间范围。时间段的起始时间最早可选择7天前。

    受影响资源

    输入受影响的资源的实例ID。

    事件内容

    输入事件内容。

  4. 事件状态列单击查看趋势,查看历史告警情况。

  5. 在目标风险事件的操作列单击查看详情,您可以查看以下内容。

    • 事件信息:包含该事件的ID,等级,内容,状态,预测水位超限开始时间,地域,可能受影响的资源。单击资源的实例ID,即可跳转到该实例的实例详情页。

    • 水位信息:以预测带宽水位超限开始时间为准,展示前两小时的真实带宽水位情况,预测后两小时的带宽水位超限情况。

查看事件记录

事件记录:30天内的问题事件和风险事件汇总,既包括进行中的事件,也包括已关闭的事件。

  1. 登录网络智能服务管理控制台
  2. 在左侧导航栏选择事件中心

  3. 事件中心页面的事件记录页签,查看事件记录列表。

    您还可以配置以下信息,查看目标事件记录。

    配置项

    描述

    时间范围

    选择要查看问题事件的时间范围。时间段的起始时间最早可选择7天前。

    受影响资源

    输入受影响的资源的实例ID。

    事件内容

    输入事件内容。

  4. 事件状态列单击查看趋势,查看历史告警情况。

  5. 在目标事件的操作列,单击查看详情,查看具体的事件信息和水位信息。

设置事件订阅

通过对重要的事件设置报警规则,您可以在第一时间得知事件的发生与进展,帮助您实时掌握事件动态。

  1. 登录网络智能服务管理控制台
  2. 在左侧导航栏选择事件中心

  3. 事件中心页面,单击报警设置,配置以下信息,单击确认

    参数

    描述

    事件名称

    选择订阅事件的名称。

    关键词过滤

    关键词文本框输入报警规则过滤的关键词,然后在条件下拉框选择过滤方式:

    • 满足包含上面任何一个关键词:当事件内容中包含任何一个关键词时,云监控会发送报警通知。

    • 满足不包含上面任何一个关键词:当事件内容中不包含任何一个关键词时,云监控会发送报警通知。

    报警通知

    选择将事件报警直接通知至指定联系人。在联系人组下拉列表选择事件报警规则的报警联系人组,然后在报警方式下拉框选择报警通知方式,取值:

    • Critical(电话+短信+邮件+WebHook)

    • Warning(短信+邮件+WebHook)

    • Info(邮件+WebHook)

    通道沉默周期

    报警发生后未恢复正常,间隔多久重复发送一次报警通知。

    单击事件订阅管理,即可在云监控控制台查看事件汇总。更多信息,请参见查看系统事件

事件汇总

汇总NIS支持的事件,并为各事件提供处理建议。

说明

问题事件不支持监控性能共享型CLB实例。

问题事件

事件code

事件名称

事件等级

云监控事件名称

事件说明和影响

用户侧处理建议

公网实例

problem-internetBandwidthOverlimit

公网带宽超限丢包

严重

实例带宽超限丢包

公网实例的实际带宽流量超出了当前带宽规格,出现丢包情况。

其中公网实例指与公网流量相关的实例,如:弹性公网IP实例、带宽包实例或传统型负载均衡CLB实例等。

建议扩容,提升带宽峰值。

公网NAT网关

problem-nat-sessionOverLimit

NAT会话超限丢弃连接

严重

NAT会话超限丢弃连接

公网NAT网关会话数量超出规格,出现新建会话失败情况,且丢包>100 packet/s。

建议升配或拆分为多个公网NAT网关实例。具体操作,请参见管理NAT网关配额创建和管理公网NAT网关实例

problem-nat-sessionNewOverLimit

NAT新建会话超限丢弃连接

严重

NAT新建会话超限丢弃连接

公网NAT网关新建会话速率超出规格,出现新建会话失败情况,且丢包>100 packet/s。

传统型负载均衡CLB(Classic Load Balancer)

problem-clb-connectionOverLimit

CLB会话超限新建连接丢失

严重

CLB会话超限新建连接丢失

CLB新建连接或并发连接数超出规格,出现新建会话失败情况,丢弃连接速率较高。

建议升配或更改为网络型负载均衡NLB(Network Load Balancer)应用型负载均衡ALB(Application Load Balancer)实例。

具体操作,请参见管理CLB配额NLBALB的产品介绍,请参见什么是网络型负载均衡NLB什么是应用型负载均衡ALB

problem-clb-bandwidthOverLimit

CLB规格超限丢包

严重

CLB规格超限丢包

CLB实际流量超出带宽规格,出现丢包情况。

建议扩容。具体操作,请参见调整性能保障型实例的规格

problem-clb-connectionFail

CLB建连失败数骤增

严重

CLB建连失败数骤增

CLB因为(后端服务器规格超限/负载过高/业务异常),出现失败连接突增情况。

视原因建议(升配后端服务器规格/升配CLB规格/检查后端业务状态)。

具体操作,请参见管理CLB配额CLB实例诊断

云企业网CEN(Cloud Enterprise Network)

problem-cen-routeOverLimit

CEN路由数量超限

严重

CEN路由数量超限

CEN路由配额超限,可能引起网络问题。

建议升级转发路由器TR(Transit Router)具体操作,请参见升级基础版转发路由器

TR

problem-cen-peerAttachBandwidthOverLimit

跨域连接带宽超限丢包

严重

跨域连接带宽超限丢包

CEN转发路由器实际流量超出带宽规格,出现丢包情况。

建议扩容,提升带宽峰值。具体操作,请参见管理云企业网配额

风险事件

事件code

事件名称

事件等级

云监控事件名称

事件说明和影响

用户侧处理建议

risk-internetPacketLoss

公网链路丢包风险

警告

公网链路丢包风险

阿里云某地域到另一地域某运营商的物理链路发生了丢包告警,则当前账号在此链路的带宽流量可能受到影响(最近十分钟带宽大于0.5 Mbps或者链路丢包率超过50%)。

重要

监控该事件之前,请先开通指定地域或IP的公网数据。具体操作,请参见开通公网流量分析

请关注这条链路上的实例带宽是否符合实际业务要求(可参考流量分析中五元组数据),若有异常可考虑将关键业务迁移到其他地域;若无异常可忽略此告警。

risk-internetBandwidthOverlimit

公网带宽超限丢包风险

警告

公网带宽超限丢包风险

根据历史数据统计,在未来某一时刻实例实际带宽流量超出当前规格的发生概率大于90%。

建议关注,若出现超规格情况建议扩容。

阿里云首页 网络智能服务 相关技术圈