事件中心事件汇总

MSE事件中心对注册配置中心、微服务治理、云原生网关生成的事件数据进行集成,让您感知所有MSE托管资源的事件变更,并针对异常事件进行自主排查。本文介绍微服务引擎MSE支持的所有事件,并为各事件提供处理建议。

Nacos

事件Code

事件名称

事件等级

云监控事件名称

事件说明和影响

事件处理建议

Nacos:TPSRateLimit

Nacos客户端TPS限流

警告

Nacos:TPSRateLimit:Normal:Nacos集群客户端TPS过高,即将限流(监视模式)

客户端访问Nacos引擎的TPS过高,为保护Nacos引擎稳定运行,即将进行请求限流,当前处于监视模式,超出TPS的请求不会被拒绝访问。

升级集群配置或扩容节点,并检查是否有错误使用导致TPS过高。如:频繁调用Nacos openAPI,多次创建Nacos Client等问题。

严重

Nacos:TPSRateLimit:Executing:Nacos客户端TPS限流

客户端访问Nacos引擎的TPS过高,为保护Nacos引擎稳定运行,进行请求限流,将导致部分超出TPS的请求被拒绝访问。

升级集群配置或扩容节点,并检查是否有错误使用导致TPS过高。如:频繁调用Nacos openAPI,多次创建Nacos Client等问题。

Nacos:ConfigCapLimit

Nacos集群配置数限流

警告

Nacos:ConfigCapLimit:Normal:Nacos集群当前配置数过多,即将限流(监视模式)

超过Nacos集群默认配置的个数上限(10000个),即将进行配置创建限流,当前处于监视模式,不会禁止创建配置,不影响发布新配置。

及时清理不使用的配置内容,同时排查是否存在应用自动发布大量配置的情况。

严重

Nacos:ConfigCapLimit:Executing:Nacos集群配置数限流

超过Nacos集群默认配置的个数上限(10000个),进行配置创建限流,将导致禁止创建配置,影响发布新配置。

及时清理不使用的配置内容,同时排查是否存在应用自动发布大量配置的情况。

Nacos:ServiceCapLimit

Nacos集群服务数限流

警告

Nacos:ServiceCapLimit:Normal:Nacos集群服务数过多,即将限流(监视模式)

注册了过多的服务,达到集群存储上限,为保护Nacos引擎稳定运行,即将进行服务注册限流,当前处于监视模式,不导致无法注册新的服务及服务提供者。

升级集群配置或扩容节点,并检查是否存在错误的发布服务,重复发布服务或多次创建Nacos Client等问题。

严重

Nacos:ServiceCapLimit:Executing:Nacos集群服务数限流

注册了过多的服务,达到集群存储上限,为保护Nacos引擎稳定运行,进行服务注册限流,将导致无法注册新的服务及服务提供者。

升级集群配置或扩容节点,并检查是否存在错误的发布服务,重复发布服务或多次创建Nacos Client等问题。

Nacos:ConnectionCapLimit

Nacos集群连接数限流

警告

Nacos:ConnectionCapLimit:Normal:Nacos集群连接数过多,即将限流(监视模式)

有过多的客户端连接到Nacos引擎,达到集群上限,为保护Nacos引擎稳定运行,即将进行新建连接限流,当前处于监视模式,新创建的Nacos Client仍然可以连接到Nacos引擎。

升级集群配置或扩容节点,并检查是否存在错误的使用方式,比如:重复多次创建Nacos Client,未关闭Nacos Client导致连接泄漏等问题。

严重

Nacos:ConnectionCapLimit:Executing:Nacos集群连接数限流

有过多的客户端连接到Nacos引擎,达到集群上限,为保护Nacos引擎稳定运行,进行新建连接限流,将导致新创建的Nacos Client无法连接到Nacos引擎。

升级集群配置或扩容节点,并检查是否存在错误的使用方式,比如:重复多次创建Nacos Client,未关闭Nacos Client导致连接泄漏等问题。

Nacos:ParametersIllegalDenied

Nacos集群请求参数不合法

警告

Nacos:ParametersIllegalDenied:Normal:Nacos集群请求参数不合法,即将限流(监视模式)

客户端请求Nacos集群的参数不合法,服务端即将拒绝不合法的参数,当前处于监视模式,仍然会返回正常结果。

检查客户端请求参数是否符合规范。

严重

Nacos:ParametersIllegalDenied:Executing:Nacos集群请求参数不合法,触发限流

客户端请求Nacos集群的参数不合法,服务端将拒绝不合法的参数,返回错误码。

检查客户端请求参数是否符合规范。

Nacos:CPUAlert

Nacos集群CPU使用率过高

警告

Nacos:CPUAlert:Executing:Nacos集群当前CPU使用率过高

Nacos集群CPU使用率过高,负载过大。可能影响后续请求的响应时间,甚至导致请求无法响应。

升级集群配置或扩容节点,并检查是否有错误使用导致负载过高。

Nacos:MemoryAlert

Nacos集群内存使用率过高

警告

Nacos:MemoryAlert:Executing:Nacos集群当前内存使用率过高

Nacos集群内存使用率过高,存在OOM Killer的风险。可能导致Nacos节点重启。

升级集群配置。

Nacos:FullGc

Nacos集群发生(长时间/多次)FullGC

警告

Nacos:FullGc:Executing:Nacos集群发生(长时间/多次)FullGC

Nacos集群频繁触发Full GC,容量已不足。可能影响后续请求的响应时间,甚至导致请求无法响应。

升级集群配置或扩容节点,并检查是否因操作不当导致容量不足。

Nacos:TooManyConfigAlert

Nacos集群配置数量过多

警告

Nacos:TooManyConfigAlert:Nacos集群配置数量过多

超过Nacos集群默认配置的个数上限(10000个),超过部分将禁止创建配置。可能影响发布新配置。

清理无用配置。

Nacos:TooManyConfigLongPolling

Nacos集群配置长轮询数量过多

警告

Nacos:TooManyConfigLongPolling:Nacos集群配置长轮询数量过多

Nacos集群配置中心监听者数量过多,负载过高。可能频繁触发FullGC,影响后续请求的响应时间,甚至导致请求无法响应。

升级集群配置或扩容节点,并检查是否因操作不当导致容量不足。

Nacos:ProviderDropTooFast

Nacos集群服务提供者环比下跌比例过高

警告

Nacos:ProviderDropTooFast:Executing:Nacos集群服务提供者环比下跌比例过高

比较当前时间和3分钟前的Nacos集群服务提供者数,发现Nacos集群服务提供者下跌超过50%,可能导致业务上游服务无法找到下游服务提供者。

检查是否有大规模应用故障或网络故障。如因预期内的大规模发布而产生,可忽略该事件。

Zookeeper

事件Code

事件名称

事件等级

云监控事件名称

事件说明和影响

事件处理建议

ZooKeeper:ExceedEphemeralLimit

ZooKeeper单个session创建临时节点超过限制(limit=2000)

严重

ZooKeeper:ExceedEphemeralLimit:ZooKeeper单个session创建临时节点超过限制(limit=2000)

单Session节点下创建过多的临时节点。可能导致该Session中新的临时节点创建失败。

  • 检查业务代码,是否错误创建了过多临时节点。

  • 若使用Dubbo,检查Dubbo版本并升级至最新版本。

  • 增加jute.maxbuffer配置,防止宕机恢复失败。

ZooKeeper:FullGc

ZooKeeper集群发生(长时间/多次)FullGC

警告

ZooKeeper:CMSGc:Executing:ZooKeeper集群发生(长时间/多次)FullGC

Full GC时间过长。可能导致处理延时增大,响应超时,导致触发自愈重启。

  • 检查ZooKeeper版本,并升级至最新版本。

  • 容量不足,若持续触发,建议扩容。

ZooKeeper:CPUAlert

ZooKeeper集群CPU使用率过高

警告

ZooKeeper:CPUAlert:Executing:ZooKeeper集群CPU使用率过高中

CPU过高。可能导致处理延时增大,响应超时,导致触发自愈重启

容量不足,若持续过高,建议扩容。

云原生网关

事件Code

事件名称

事件等级

云监控事件名称

事件说明和影响

事件处理建议

Gateway:ElasticScaleOut

云原生网关弹性扩容

警告

Gateway:ElasticScaleOut:Failed:云原生网关弹性扩容执行失败

执行弹性扩容时,云原生网关会根据扩容所处的状态产生此事件。

根据控制台事件详情指引进行排查。

信息

Gateway:ElasticScaleOut:Executing:云原生网关弹性扩容执行中

按需关注。

信息

Gateway:ElasticScaleOut:Executed:云原生网关弹性扩容执行成功

按需关注。

Gateway:ElasticScaleIn

云原生网关弹性缩容

警告

Gateway:ElasticScaleIn:Failed:云原生网关弹性缩容执行失败

执行弹性缩容时,云原生网关会根据缩容所处的状态产生此事件。

根据控制台事件详情指引进行排查。

信息

Gateway:ElasticScaleIn:Executing:云原生网关弹性缩容执行中

按需关注。

信息

Gateway:ElasticScaleIn:Executed:云原生网关弹性缩容执行成功

按需关注。

Gateway:ElasticOpen

云原生网关弹性开启

警告

Gateway:ElasticOpen:Failed:云原生网关弹性开启失败

开启自动扩容时,云原生网关会根据开启结果产生此事件。

根据控制台事件详情指引进行排查。

信息

Gateway:ElasticOpen:Executed:云原生网关弹性开启成功

按需关注。

Gateway:ElasticClose

云原生网关弹性关闭

警告

Gateway:ElasticClose:Failed:云原生网关弹性关闭失败

关闭自动扩容时,云原生网关会根据关闭结果产生此事件。

根据控制台事件详情指引进行排查。

信息

Gateway:ElasticClose:Executed:云原生网关弹性关闭成功

按需关注。

Gateway:ElasticStrategyUpdate

云原生网关弹性策略更新

警告

Gateway:ElasticStrategyUpdate:Failed:云原生网关弹性策略更新失败

自动扩容处于开启状态时,云原生网关会更新自动扩容策略,并根据更新结果产生此事件。

根据控制台事件详情指引进行排查。

信息

Gateway:ElasticStrategyUpdate:Executed:云原生网关弹性策略更新成功

按需关注。

微服务治理

事件Code

事件名称

事件等级

云监控事件名称

事件说明和影响

事件处理建议

Governance:FlowTrafficBlock

微服务治理应用接口触发流控规则

警告

Governance:FlowTrafficBlock:Executing:微服务治理应用接口流控规则触发中

微服务治理应用配置的接口流控规则触发时,产生此事件。

接口出现突发流量,建议持续观察。

Governance:CircleBreakerTrafficBlock

微服务治理应用接口触发熔断规则

警告

Governance:CircleBreakerTrafficBlock:Executing:微服务治理应用接口熔断规则触发中

微服务治理应用配置的熔断规则触发时,会产生此事件。

下游接口出现不稳定情况(慢调用、异常服务等),建议检查下游依赖。

Governance:ParamsTrafficBlock

微服务治理应用接口触发热点防护规则

警告

Governance:ParamsTrafficBlock:Executing:微服务治理应用接口流控规则触发中

微服务治理应用配置的热点参数防护规则触发时,产生此事件。

出现热点参数调用,建议对相关数据进行预热。

Governance:GracefulShutdown

微服务无损下线

信息

Governance:GracefulShutdown:微服务无损下线

微服务无损下线完成时,产生该事件,即应用接入MSE后无损下线能力自动开启。

按需关注。

Governance:RegistrationFinish

微服务注册上线

信息

Governance:RegistrationFinish:微服务注册上线

开启无损上线后,微服务注册上线完成时,产生此事件。

按需关注。

Governance:WarmupStart

微服务预热开始

信息

Governance:WarmupStart:微服务预热开始

开启无损上线后,微服务治理应用的新实例开始流量预热时,产生此事件。

按需关注。

Governance:WarmupEnd

微服务预热完成

信息

Governance:WarmupEnd:微服务预热完成

开启无损上线后,微服务治理应用的新实例流量预热完成时,产生此事件。

按需关注。

Governance:ReadinessFinish

微服务通过K8s的Readiness检测

信息

Governance:ReadinessFinish:微服务通过K8s的Readiness检测

开启无损上线后,微服务治理应用完成Kubernetes的Readiness检测时,产生此事件。

按需关注。

Governance:GracefulShutdown

微服务手动下线

信息

Governance:GracefulShutdown:微服务手动下线

在微服务治理控制台的节点详情中,对节点执行服务下线操作并且操作生效时,会产生该事件。

按需关注。

Governance:RegistrationFinish

微服务手动上线

信息

Governance:RegistrationFinish:微服务手动上线

在微服务治理控制台的节点详情中,对节点执行服务上线操作并且操作生效时,会产生该事件。

按需关注。

Governance:ApplicationStop

微服务应用停机

信息

Governance:ApplicationStop:微服务应用停机

开启无损下线后,微服务治理应用在执行完无损下线流程后,开始真正停机之前,会产生该事件。

按需关注。