配置默认告警

本文介绍如何配置默认告警。

操作步骤

  1. 登录MSE注册配置中心管理控制台,并在顶部菜单栏选择地域。

  2. 在左侧导航栏,选择注册配置中心 > 实例列表

  3. 实例列表页面,单击目标实例操作列下的更多 > 配置默认告警

  4. 配置默认告警对话框,选择告警联系人分组,然后单击确定

    单击确定后,将自动添加以下默认告警规则。

    集群类型

    集群版本

    告警名称

    说明

    解决方案

    注册配置中心通用

    基础版、开发版、专业版

    集群CPU使用率过高

    集群节点CPU使用率超过80%

    集群版本缺陷或容量不足,请检查风险管理中的风险项并根据建议解决,如果风险解决后仍未恢复告警,请扩容。

    集群内存使用率过高

    集群节点内存使用率超过90%

    ZooKeeper

    基础版、开发版、专业版

    ZooKeeper CMS Gc次数过多

    一分钟内集群CMS Gc次数超过5次

    ZooKeeper CMS Gc时间过长

    一分钟内CMS Gc总时间超过6s

    Serverless

    Snapshot限流

    Snapshot大小超过20M,接近25M限制值

    集群最大支持25M Snapshot,如果需要更大空间,请提工单

    Nacos

    基础版、开发版、专业版

    Nacos Full Gc次数过多

    一分钟内集群Full Gc次数超过2次

    集群容量不足,请检查使用的客户端的方式是否有误,造成连接泄漏/重复注册/重复订阅等问题。如果没有,请及时扩容或升配。

    Nacos Full Gc时间过长

    一分钟内集群Full Gc时间超过5s

    基础版、开发版、专业版、Serverless

    Nacos服务使用率过高

    服务数使用率超过90%

    Nacos服务提供者使用率过高

    服务提供者数使用率超过90%

    Nacos连接数使用率过高

    连接数使用率超过90%

    Nacos配置数使用率过高

    配置数使用率超过90%

    Nacos配置长轮询使用率过高

    配置长轮询使用率超过90%

    Nacos服务提供者比例环比下跌过高

    比较当前时间和3分钟前的Nacos集群服务提供者数,发现Nacos集群服务提供者下跌超过50%,可能导致业务上游服务无法找到下游服务提供者

    检测到短时间内大批量服务掉线,疑似应用存在故障或大规模发布,请检查业务应用是否正处于变更发布中。如果不是,请检查业务应用的CPU、内存使用、GC、网络等资源是否健康。

    Serverless

    TPS限流事件

    集群触发TPS限流

    提工单

    服务容量限制事件

    集群触发服务容量限制

    连接数量限制事件

    集群触发连接数限制

    配置容量限制事件

    集群触发配置容量限制

    Ingress

    专业版

    集群CPU使用率过高

    集群CPU使用率超过80%

    集群容量不足,请检查是否存在插件内存泄漏/逻辑错误等问题。如果没有,请及时扩容。

    集群内存使用率过高

    集群内存使用率超过80%

    专业版、Serverless

    网关整体正确率异常

    网关整体正确率低于80%

    网关正确率异常,请检查网关配置以及业务是否异常。

    网关自定义插件出现异常,已经自动恢复

    网关自定义插件异常,已自动恢复

    插件崩溃,请检查插件逻辑。