事件中心
网络智能服务 NIS(Network Intelligence Service)事件中心提供主动告警能力,帮助您及时获知风险,查看可能受影响的资源,避免业务受损。本文为您介绍如何使用NIS事件中心。
应用场景
NIS事件由阿里云定义,用于记录和通知云网络资源的信息,例如运维任务执行情况、资源是否出现异常、资源状态变化等。
通知风险和异常
如果发生了实例资源可用性或性能受损的事件,例如因实例超规格使用造成性能受损、因运营商链路丢包影响业务可用性、实例到期费用预警等,阿里云会将事件推送至NIS控制台的事件中心进行展示,建议您及时响应这些事件,避免因资源可用性或性能受损影响业务。
实现自动化运维
在NIS控制台展示的事件均定义了事件状态,方便区分相应系统运维任务的执行情况,而且事件产生及状态变化时会上报至云监控,方便您进一步根据自身需要搭建事件驱动的自动化运维体系。
使用限制
已停售的实例规格族不支持事件功能,更多信息,请参见各云服务的停售公告。
操作导航
操作 | 说明及相关文档 |
了解事件 | 操作前,请了解事件类型与等级。具体信息,请参见基本信息。 |
查看事件 | 您可以在通过以下方式查看事件: |
解决事件 | 查看事件之后,您可以根据相应的建议解决事件,请参见事件汇总。 |
基本信息
事件类型
事件由阿里云定义,用于记录和通知云网络资源的信息。按照起因进行分类,事件可以分为:
类别 | 说明 | 举例事件 |
问题事件 | 已经造成业务受损的异常事件,并且7天内状态一直处于进行中的事件。 |
|
风险事件 | 可能造成业务受损的异常事件,并且7天内状态一直处于进行中的事件。 |
|
事件等级
按照对实例正常运行的影响程度进行划分,事件分为以下几个等级:
严重:影响重大,需要尽快处理,否则可能导致实例无法使用。
警告:有一定影响,需要您在影响持续期间加以关注,或者选择合适时间处理。
信息:您自行选择是否关注即可。
关于事件Code、名称、说明与处理建议等。具体信息,请参见事件汇总。
查看事件
查看问题事件
问题事件:已经造成业务受损的异常事件,并且7天内状态一直处于进行中的事件。
- 登录网络智能服务管理控制台。
在左侧导航栏选择事件中心。
在事件中心页面的问题事件页签,查看问题事件列表,以及具体事件ID,事件内容,事件状态,发生时间、地域等信息。
您还可以配置以下信息,查看目标问题事件。
配置项
描述
时间范围
选择要查看问题事件的时间范围。时间段的起始时间最早可选择7天前。
受影响资源
输入受影响的资源的实例ID。
事件内容
输入事件内容。
在事件状态列单击查看趋势,查看历史告警情况。
在目标问题事件的操作列单击查看详情,您可以查看以下内容。
事件信息:包含该问题事件的ID、等级、内容、状态、发生时间、地域、及可能受影响的资源。单击资源的实例ID,即可跳转到该实例的实例详情页。
水位信息:以事件发生时间为准,展示前一小时的带宽水位超限情况,预测后一小时的带宽水位超限情况。
该实例最近10次告警记录:在一定时间范围内,展示实例的告警记录。
查看风险事件
风险事件:可能造成业务受损的异常事件,并且7天内状态一直处于进行中的事件。
- 登录网络智能服务管理控制台。
在左侧导航栏选择事件中心。
在事件中心页面的风险事件页签,查看风险事件列表,以及具体事件ID,内容,状态,预测水位超限开始时间,地域等信息。
您还可以配置以下信息,查看目标风险事件。
配置项
描述
时间范围
选择要查看问题事件的时间范围。时间段的起始时间最早可选择7天前。
受影响资源
输入受影响的资源的实例ID。
事件内容
输入事件内容。
在事件状态列单击查看趋势,查看历史告警情况。
在目标风险事件的操作列单击查看详情,您可以查看以下内容。
事件信息:包含该事件的ID,等级,内容,状态,预测水位超限开始时间,地域,可能受影响的资源。单击资源的实例ID,即可跳转到该实例的实例详情页。
水位信息:以预测带宽水位超限开始时间为准,展示前两小时的真实带宽水位情况,预测后两小时的带宽水位超限情况。
查看事件记录
事件记录:30天内的问题事件和风险事件汇总,既包括进行中的事件,也包括已关闭的事件。
- 登录网络智能服务管理控制台。
在左侧导航栏选择事件中心。
在事件中心页面的事件记录页签,查看事件记录列表。
您还可以配置以下信息,查看目标事件记录。
配置项
描述
时间范围
选择要查看问题事件的时间范围。时间段的起始时间最早可选择7天前。
受影响资源
输入受影响的资源的实例ID。
事件内容
输入事件内容。
在事件状态列单击查看趋势,查看历史告警情况。
在目标事件的操作列,单击查看详情,查看具体的事件信息和水位信息。
设置事件订阅
通过对重要的事件设置报警规则,您可以在第一时间得知事件的发生与进展,帮助您实时掌握事件动态。
- 登录网络智能服务管理控制台。
在左侧导航栏选择事件中心。
在事件中心页面,单击报警设置,配置以下信息,单击确认。
参数
描述
事件名称
选择订阅事件的名称。
关键词过滤
在关键词文本框输入报警规则过滤的关键词,然后在条件下拉框选择过滤方式:
满足包含上面任何一个关键词:当事件内容中包含任何一个关键词时,云监控会发送报警通知。
满足不包含上面任何一个关键词:当事件内容中不包含任何一个关键词时,云监控会发送报警通知。
报警通知
选择将事件报警直接通知至指定联系人。在联系人组下拉列表选择事件报警规则的报警联系人组,然后在报警方式下拉框选择报警通知方式,取值:
Critical(电话+短信+邮件+WebHook)
Warning(短信+邮件+WebHook)
Info(邮件+WebHook)
通道沉默周期
报警发生后未恢复正常,间隔多久重复发送一次报警通知。
单击事件订阅管理,即可在云监控控制台查看事件汇总。更多信息,请参见查看系统事件。
事件汇总
汇总NIS支持的事件,并为各事件提供处理建议。
问题事件不支持监控性能共享型CLB实例。
问题事件
事件code | 事件名称 | 事件等级 | 云监控事件名称 | 事件说明和影响 | 用户侧处理建议 |
公网实例 | |||||
problem-internetBandwidthOverlimit | 公网带宽超限丢包 | 严重 | 实例带宽超限丢包 | 公网实例的实际带宽流量超出了当前带宽规格,出现丢包情况。 其中公网实例指与公网流量相关的实例,如:弹性公网IP实例、带宽包实例或传统型负载均衡CLB实例等。 | 建议扩容,提升带宽峰值。 |
公网NAT网关 | |||||
problem-nat-sessionOverLimit | NAT会话超限丢弃连接 | 严重 | NAT会话超限丢弃连接 | 公网NAT网关会话数量超出规格,出现新建会话失败情况,且丢包>100 packet/s。 | 建议升配或拆分为多个公网NAT网关实例。具体操作,请参见管理NAT网关配额和创建和管理公网NAT网关实例。 |
problem-nat-sessionNewOverLimit | NAT新建会话超限丢弃连接 | 严重 | NAT新建会话超限丢弃连接 | 公网NAT网关新建会话速率超出规格,出现新建会话失败情况,且丢包>100 packet/s。 | |
传统型负载均衡CLB(Classic Load Balancer) | |||||
problem-clb-connectionOverLimit | CLB会话超限新建连接丢失 | 严重 | CLB会话超限新建连接丢失 | CLB新建连接或并发连接数超出规格,出现新建会话失败情况,丢弃连接速率较高。 | 建议升配或更改为网络型负载均衡NLB(Network Load Balancer)或应用型负载均衡ALB(Application Load Balancer)实例。 具体操作,请参见管理CLB配额。NLB和ALB的产品介绍,请参见什么是网络型负载均衡NLB、什么是应用型负载均衡ALB。 |
problem-clb-bandwidthOverLimit | CLB规格超限丢包 | 严重 | CLB规格超限丢包 | CLB实际流量超出带宽规格,出现丢包情况。 | 建议扩容。具体操作,请参见调整性能保障型实例的规格。 |
problem-clb-connectionFail | CLB建连失败数骤增 | 严重 | CLB建连失败数骤增 | CLB因为(后端服务器规格超限/负载过高/业务异常),出现失败连接突增情况。 | 视原因建议(升配后端服务器规格/升配CLB规格/检查后端业务状态)。 |
云企业网CEN(Cloud Enterprise Network) | |||||
problem-cen-routeOverLimit | CEN路由数量超限 | 严重 | CEN路由数量超限 | CEN路由配额超限,可能引起网络问题。 | 建议升级转发路由器TR(Transit Router)具体操作,请参见升级基础版转发路由器。 |
TR | |||||
problem-cen-peerAttachBandwidthOverLimit | 跨域连接带宽超限丢包 | 严重 | 跨域连接带宽超限丢包 | CEN转发路由器实际流量超出带宽规格,出现丢包情况。 | 建议扩容,提升带宽峰值。具体操作,请参见管理云企业网配额。 |
风险事件
事件code | 事件名称 | 事件等级 | 云监控事件名称 | 事件说明和影响 | 用户侧处理建议 |
risk-internetPacketLoss | 公网链路丢包风险 | 警告 | 公网链路丢包风险 | 阿里云某地域到另一地域某运营商的物理链路发生了丢包告警,则当前账号在此链路的带宽流量可能受到影响(最近十分钟带宽大于0.5 Mbps或者链路丢包率超过50%)。 重要 监控该事件之前,请先开通指定地域或IP的公网数据。具体操作,请参见开通公网流量分析。 | 请关注这条链路上的实例带宽是否符合实际业务要求(可参考流量分析中五元组数据),若有异常可考虑将关键业务迁移到其他地域;若无异常可忽略此告警。 |
risk-internetBandwidthOverlimit | 公网带宽超限丢包风险 | 警告 | 公网带宽超限丢包风险 | 根据历史数据统计,在未来某一时刻实例实际带宽流量超出当前规格的发生概率大于90%。 | 建议关注,若出现超规格情况建议扩容。 |