本文介绍基于业务的告警管理方案。

简介

告警管理中心是以业务为中心的告警管理运维平台,您可以将已有监控平台(Zabbix、Prometheus等)产生的告警和日志服务资源产生的告警添加到一个业务中进行统一管理和通知,有效提高运维效率。例如某电商公司的库存服务和会员服务是两个独立的业务,您可以分别为这两个业务设置告警。更多信息,请参见告警管理中心

一个常见的告警架构,包括资源层、指标层、监控层、可视化层、告警通知、事务管理/行动。告警管理中心支持从纵向角度切分整个监控告警层级,使每个业务都包含从资源层到告警到事务管理的完整链路。

业务架构

业务架构

您可以在业务中添加不同的告警源并设置独立的告警策略,告警管理中心会根据您的设置,对每个业务进行独立告警,相关架构如下图所示。

告警管理中心

告警源

告警源主要包括日志服务资源、第三方告警源和云产品实例。在添加时,可以根据业务需求归纳和切分告警源,常见方式如下:

  • 纵向切分
    按照业务所使用的资源,从技术部署栈的角度进行添加。例如目标业务使用了接入层、计算层和存储层,则您可以分别将每一层所使用到的资源添加到业务的告警源中。告警源
  • 横向切分
    该场景比较适用于运维团队。例如某公司将业务全部上云,数据库运维团队需要对云上的所有RDS实例进行运维管理,此时可以将所有RDS实例或者RDS实例对应的指标添加到一个业务中进行管理。告警管理中心
  • 第三方告警源

    当您已有一套或多套监控平台时,您可以将这些平台数据接入告警管理中心,进行集中管理。目前告警管理中心支持如下第三方监控平台。

    告警源

业务策略

业务策略是指在业务中配置告警通知策略,完成告警合并、降噪、抑制和通知。业务策略支持如下三种模式。

模式 说明
开启 使用此处设置的通知策略进行告警通知。

如果该告警源在告警中心已绑定可用的通知策略,则原绑定的通知策略将被屏蔽。

关闭 不使用此处设置的通知策略进行告警通知。

如果该告警源在告警中心已绑定可用的通知策略,则将使用原绑定的通知策略进行告警通知。

混合 如果该告警源在告警中心已绑定可用的通知策略,则将使用此处设置的通知策略和原绑定的通知策略分别进行告警通知。

告警管理

  • 处理告警事务

    告警管理中心支持从业务层面对告警事务进行评估、确认、解决、分派、忽略和设置处理人等处理。更多信息,请参见处理告警事务

  • 查看告警态势大盘

    告警态势大盘用于展示单个告警源或业务整体的告警触发情况和告警态势。更多信息,请参见告警态势大盘

    告警态势
  • 查看告警排错大盘
    告警排错大盘包括全局告警链路中心、全局告警监控规则中心、全局告警排障中心和开放告警中心,用于可视化展示告警的相关信息,帮助您排查问题。更多信息,请参见告警排错大盘告警排错

操作流程

告警管理中心的操作流程如下所示。

  1. 添加业务
  2. 添加告警源
  3. 设置告警监控规则
  4. 设置业务策略
  5. 处理告警事务
  6. 查看告警态势大盘
  7. 查看告警排除大盘