本文介绍如何配置默认告警。
操作步骤
登录MSE注册配置中心管理控制台,并在顶部菜单栏选择地域。
在左侧导航栏,选择注册配置中心 > 实例列表。
在实例列表页面,单击目标实例操作列下的更多 > 配置默认告警。
在配置默认告警对话框,选择告警联系人分组,然后单击确定。
单击确定后,将自动添加以下默认告警规则。
集群类型
集群版本
告警名称
说明
解决方案
注册配置中心通用
基础版、开发版、专业版
集群CPU使用率过高
集群节点CPU使用率超过80%
集群版本缺陷或容量不足,请检查风险管理中的风险项并根据建议解决,如果风险解决后仍未恢复告警,请扩容。
集群内存使用率过高
集群节点内存使用率超过90%
ZooKeeper
基础版、开发版、专业版
ZooKeeper CMS Gc次数过多
一分钟内集群CMS Gc次数超过5次
ZooKeeper CMS Gc时间过长
一分钟内CMS Gc总时间超过6s
Serverless
Snapshot限流
Snapshot大小超过20M,接近25M限制值
集群最大支持25M Snapshot,如果需要更大空间,请提工单。
Nacos
基础版、开发版、专业版
Nacos Full Gc次数过多
一分钟内集群Full Gc次数超过2次
集群容量不足,请检查使用的客户端的方式是否有误,造成连接泄漏/重复注册/重复订阅等问题。如果没有,请及时扩容或升配。
Nacos Full Gc时间过长
一分钟内集群Full Gc时间超过5s
基础版、开发版、专业版、Serverless
Nacos服务使用率过高
服务数使用率超过90%
Nacos服务提供者使用率过高
服务提供者数使用率超过90%
Nacos连接数使用率过高
连接数使用率超过90%
Nacos配置数使用率过高
配置数使用率超过90%
Nacos配置长轮询使用率过高
配置长轮询使用率超过90%
Nacos服务提供者比例环比下跌过高
比较当前时间和3分钟前的Nacos集群服务提供者数,发现Nacos集群服务提供者下跌超过50%,可能导致业务上游服务无法找到下游服务提供者
检测到短时间内大批量服务掉线,疑似应用存在故障或大规模发布,请检查业务应用是否正处于变更发布中。如果不是,请检查业务应用的CPU、内存使用、GC、网络等资源是否健康。
Serverless
TPS限流事件
集群触发TPS限流
服务容量限制事件
集群触发服务容量限制
连接数量限制事件
集群触发连接数限制
配置容量限制事件
集群触发配置容量限制
Ingress
专业版
集群CPU使用率过高
集群CPU使用率超过80%
集群容量不足,请检查是否存在插件内存泄漏/逻辑错误等问题。如果没有,请及时扩容。
集群内存使用率过高
集群内存使用率超过80%
专业版、Serverless
网关整体正确率异常
网关整体正确率低于80%
网关正确率异常,请检查网关配置以及业务是否异常。
网关自定义插件出现异常,已经自动恢复
网关自定义插件异常,已自动恢复
插件崩溃,请检查插件逻辑。