告警中心大盘包括全局告警链路中心、全局告警监控规则中心和全局告警排障中心,用于可视化展示告警的相关信息。
背景信息
在首次使用日志服务告警时,系统会提示您选择一个地域,并自动在该地域创建日志服务资源,即在您所选的地域创建一个名为sls-alert-主账号ID-区域ID的Project和名为internal-alert-center-log的LogStore,用于存储告警日志。
internal-alert-center-log LogStore为免费使用,并默认已创建索引。
日志服务基于internal-alert-center-log LogStore,生成内置仪表盘,用于统计告警的触发情况、通知情况等。
功能入口
登录日志服务控制台。
-
在Project列表中,单击任意一个Project。
-
在左侧导航栏中,单击告警。
-
在告警中心页面,选择。
全局告警链路中心
全局告警链路中心仪表盘用于展示在一定时间范围内当前阿里云账号下的所有告警从触发到降噪处理,最后到发送告警通知的完整链路,以及在该链路中所涉及的各种数据,包括已开启的告警监控规则数、不同级别的告警数、路由合并后的告警数、去重后的告警数、静默后的告警数、已发送的告警通知数、各个渠道的通知数等。
仪表盘顶部提供业务、区域、项目、严重度、规则名筛选条件。渠道通知支持电话、邮件、WebHook、短信、钉钉和通知中心。
全局告警监控规则中心
全局告警监控规则中心仪表盘用于展示在一定时间范围内当前阿里云账号下所有的监控规则,包括已开启的告警监控规则数量、告警规则触发状态分布情况、告警规则详细信息等。
该仪表盘顶部提供业务、区域、项目、规则名四个筛选条件。概览区展示当前评估次数及与前24小时的对比趋势,并以水平条形图呈现未触发、出错、触发三种状态的分布。主体区域包含告警监控规则最新评估状态表格(含时间、规则名、状态、详情、操作列)和各合并集合中告警的最新状态表格(含阶段、所在合并集合、严重度、告警标签等列),支持按严重度和链路阶段进一步筛选。
全局告警排障中心
全局告警排障中心仪表盘用于展示在一定时间范围内当前阿里云账号下所有告警配置的错误信息,包括全局配置错误数及详情、通知渠道错误数及详情、告警监控规则出错数及详情。
仪表盘顶部提供业务、地域、项目、规则名四个筛选维度,各板块以统计卡片展示错误总数及环比趋势,全局配置故障区域包含故障级别分布柱状图和故障类型分布饼图,通知渠道错误区域展示 Webhook、DingTalk 等渠道的失败次数统计。
您可以在internal-alert-center-log LogStore中通过__topic__: system_config语句查找配置错误相关的日志。常见的错误如下表所示。
|
故障级别 |
故障类型 |
故障详情 |
故障说明 |
解决方案 |
|
error |
AlertPolicyNotConfigured |
Alert xxx has no alert policy configured |
未在告警监控规则中设置告警策略,告警无法被路由分组合并,导致对应的告警被忽略。 |
修改告警监控规则,设置正确的告警策略。 |
|
AlertPolicyNotExist |
alert policy xxx does not exist |
告警监控规则所绑定的告警策略不存在,导致对应的告警被忽略。 |
创建同名的告警策略或者使用其他告警策略。 |
|
|
AlertPolicyInvalid |
alert policy xxx format is error |
告警策略格式错误,告警无法被解析,导致对应的告警被忽略。 |
修改告警策略或者删除该告警策略并重新创建同名的告警策略。 |
|
|
GroupPolicyEmpty |
Group policy of alert policy xxx is empty |
未设置告警策略中的路由合并策略,导致对应的告警被忽略。 |
设置告警策略中的路由合并策略,避免为空。 |
|
|
ActionPolicyNotExist |
action policy xxx does not exist |
行动策略不存在,导致使用了该行动策略的告警不被发送。 |
创建行动策略或者使用其他行动策略。 |
|
|
ActionPolicyInvalid |
action policy xxx is invalid |
行动策略格式错误,导致使用了该行动策略的告警不被发送。 |
修改行动策略或者删除该行动策略后再重新创建同名行动策略。 |
|
|
ActionPolicyEmpty |
Primary(Secondary) policy for action policy xxx is empty |
第一、第二行动策略为空,导致使用该行动策略的告警不被发送。 |
修改行动策略,确保不为空。 |
|
|
warn |
AlertPolicyInheritanceLoop |
alert policy xxx has inheritance loop with yyy |
告警策略集成存在循环,例如A继承B,B又继承A。
不会无限解析继承链。 |
修改告警策略,避免存在循环继承。 |
|
UserNotExist |
user xxx does not exist |
目标用户不存在,导致该用户不会被通知。 |
创建该用户或者设置行动策略使用其他用户。 |
|
|
UserGroupNotExist |
group xxx does not exist |
目标用户组不存在,导致该用户组不会被通知。 |
创建该用户组或者设置行动策略使用其他用户组。 |
|
|
UserGroupEmpty |
group xxx is empty |
目标用户组为空,导致该用户组不会被通知。 |
为该用户组添加用户。 |
|
|
OncallGroupNotExist |
oncall group xxx does not exist |
目标值班组不存在,导致该值班组不会被通知。 |
创建该值班组或者设置行动策略使用其他值班组。 |
|
|
ContentTemplateNotExist |
content template xxx does not exist |
目标内容模板不存在,导致使用该内容模板的通知渠道被忽略。 |
创建该内容模板或者设置行动策略使用其他内容模板。 |
|
|
CalendarNotExist |
calendar xxx does not exist |
目标日历不存在,导致使用该日历的值班组被忽略。 |
创建该日历或者设置值班组使用其它日历。 |
|
|
ChannelQuotaNotExist |
channel quota does not exist |
渠道配额不存在,导致发送通知时忽略Quota限制。 |
创建渠道配额。 |
|
|
ChannelQuotaInvalid |
channel quota format is invalid |
渠道配额为空,导致发送通知时忽略Quota限制。 |
修改渠道配额的内容,确保限制不为空。 |
示例
以下视频向您介绍告警排障流程以及用于告警排障的资产信息。