告警中心大盘

告警中心大盘包括全局告警链路中心、全局告警监控规则中心和全局告警排障中心,用于可视化展示告警的相关信息。

背景信息

在首次使用日志服务告警时,系统会提示您选择一个地域,并自动在该地域创建日志服务资源,即在您所选的地域创建一个名为sls-alert-主账号ID-区域ID的Project和名为internal-alert-center-log的Logstore,用于存储告警日志。

说明

internal-alert-center-log Logstore为免费使用,并默认已创建索引。

日志服务基于internal-alert-center-log Logstore,生成内置仪表盘,用于统计告警的触发情况、通知情况等。

功能入口

  1. 登录日志服务控制台

  2. 在Project列表中,单击任意一个Project。

  3. 在左侧导航栏中,单击告警

  4. 告警中心页面,选择告警大盘

全局告警链路中心

全局告警链路中心仪表盘用于展示在一定时间范围内当前阿里云账号下的所有告警从触发到降噪处理,最后到发送告警通知的完整链路,以及在该链路中所涉及的各种数据,包括已开启的告警监控规则数、不同级别的告警数、路由合并后的告警数、去重后的告警数、静默后的告警数、已发送的告警通知数、各个渠道的通知数等。

告警链路中心

全局告警监控规则中心

全局告警监控规则中心仪表盘用于展示在一定时间范围内当前阿里云账号下所有的监控规则,包括已开启的告警监控规则数量、告警规则触发状态分布情况、告警规则详细信息等。

监控规则中心

全局告警排障中心

全局告警排障中心仪表盘用于展示在一定时间范围内当前阿里云账号下所有告警配置的错误信息,包括全局配置错误数及详情、通知渠道错误数及详情、告警监控规则出错数及详情。

告警排障中心

您可以在internal-alert-center-log Logstore中通过__topic__: system_config语句查找配置错误相关的日志。常见的错误如下表所示。

故障级别

故障类型

故障详情

故障说明

解决方案

error

AlertPolicyNotConfigured

Alert xxx has no alert policy configured

未在告警监控规则中设置告警策略,告警无法被路由分组合并,导致对应的告警被忽略。

修改告警监控规则,设置正确的告警策略。

AlertPolicyNotExist

alert policy xxx does not exist

告警监控规则所绑定的告警策略不存在,导致对应的告警被忽略。

创建同名的告警策略或者使用其他告警策略。

AlertPolicyInvalid

alert policy xxx format is error

告警策略格式错误,告警无法被解析,导致对应的告警被忽略。

修改告警策略或者删除该告警策略并重新创建同名的告警策略。

GroupPolicyEmpty

Group policy of alert policy xxx is empty

未设置告警策略中的路由合并策略,导致对应的告警被忽略。

设置告警策略中的路由合并策略,避免为空。

ActionPolicyNotExist

action policy xxx does not exist

行动策略不存在,导致使用了该行动策略的告警不被发送。

创建行动策略或者使用其他行动策略。

ActionPolicyInvalid

action policy xxx is invalid

行动策略格式错误,导致使用了该行动策略的告警不被发送。

修改行动策略或者删除该行动策略后再重新创建同名行动策略。

ActionPolicyEmpty

Primary(Secondary) policy for action policy xxx is empty

第一、第二行动策略为空,导致使用该行动策略的告警不被发送。

修改行动策略,确保不为空。

warn

AlertPolicyInheritanceLoop

alert policy xxx has inheritance loop with yyy

告警策略集成存在循环,例如A继承B,B又继承A。

  • 如果设置为A,则按照B、A的顺序生效。

  • 如果设置为B,则按照A、B的顺序生效。

不会无限解析继承链。

修改告警策略,避免存在循环继承。

UserNotExist

user xxx does not exist

目标用户不存在,导致该用户不会被通知。

创建该用户或者设置行动策略使用其他用户。

UserGroupNotExist

group xxx does not exist

目标用户组不存在,导致该用户组不会被通知。

创建该用户组或者设置行动策略使用其他用户组。

UserGroupEmpty

group xxx is empty

目标用户组为空,导致该用户组不会被通知。

为该用户组添加用户。

OncallGroupNotExist

oncall group xxx does not exist

目标值班组不存在,导致该值班组不会被通知。

创建该值班组或者设置行动策略使用其他值班组。

ContentTemplateNotExist

content template xxx does not exist

目标内容模板不存在,导致使用该内容模板的通知渠道被忽略。

创建该内容模板或者设置行动策略使用其他内容模板。

CalendarNotExist

calendar xxx does not exist

目标日历不存在,导致使用该日历的值班组被忽略。

创建该日历或者设置值班组使用其它日历。

ChannelQuotaNotExist

channel quota does not exist

渠道配额不存在,导致发送通知时忽略Quota限制。

创建渠道配额。

ChannelQuotaInvalid

channel quota format is invalid

渠道配额为空,导致发送通知时忽略Quota限制。

修改渠道配额的内容,确保限制不为空。