怎么配置业务监控

本文主要介绍如何进行业务监控的配置。

监控配置

业务监控提供了一种日志数据分析&统计的监控方式,支持用户根据不同的服务,配置多个业务监控项。

以下为监控项配置过程引导。

一、打开页面

点击菜单【监控中心-业务监控】,打开业务监控页面。

本页面展示已配置的监控项,支持按关联服务、监控项名称和告警状态进行模糊搜索。

右上角小框展示当前数据源为API的监控项条数,支持添加【新建按钮】,创建新的业务监控配置。

二、新增监控

点击【新建按钮】,打开新增页面。

设定监控项名称,选择监控项的归属服务、数据来源(默认API)。

重要

创建业务监控项的前提,是当前服务已经通过【集成配置】获取API Key,并向运维事件中心推送了日志数据。否则无法进行日志解析和统计指标配置。

image

三、日志筛选

系统支持按黑白名单配置,过滤日志数据。

  • 黑名单:按规则过滤,并丢弃含黑名单字段的日志。相当于 SQL 里的[Where Field < >?]。

  • 白名单:按规则过滤,并丢弃不包含白名单字段的日志。类似SQL里的[Where Field =?]。

黑白名单可以组合件进行日志筛选,黑名单的过滤优先级高于白名单。

image

1.白名单设置方式:

点击【新增白名单】按钮,点击【白名单列】,打开弹窗,手动命名白名单列名如result

  • 选取规则:

在示例日志数据中手动划选某个字段的value值或字符,系统自动定位关键字的位置,并生成列值选取规则,如:左起第 1 。按选取规则解析示例日志,并在侧边栏展示此位置出现的字段列值和出现次数。

选取规则支持手动输入,修改第XMN,按修改后的规则自动匹配到相应区域的日志字段。

image
  • 列值翻译

系统支持将按规则选取的列值进行统一翻译,如4XX状态码统一翻译为error,200翻译为success。便于统计成功或失败结果。

  • 白名单值

支持手动设定取值范围内的特定值为白名单,如过滤result:success的日志数据,将success设为白名单值。若需要设定多个值,可以以英文逗号,分隔。支持取翻译后的列值回填,并过滤翻译值与原始值。

说明

如401,402,404翻译为error,白名单值设error后,将会一并过滤401,402,404以及error。

image

2.黑名单设置方式:

黑名单设置方式同白名单一致。

四、列值分组

列值分组等同于SQL中的GroupBy功能,Group表示分组,By表示按分组列的值进行分组。

列值分组的选值规则同黑白名单一致,按手动划选区域定位关键字。通过选取规则获取到的列值进行分组,用于抽象成为分组列如时间、数值、结果等。

image

分组列可以设定列值范围为明确的值如success,Y等,多个值之间用英文,切割。若不限定分组值,可以设为星号*,将按选值规则定位区域的所有值进行GroupBy。

分组列可以配多个分组,按用户需要自定义添加和删减。

五、统计列

统计列,是基于列值分组后的数据,进行下一步的维度数据计算。

统计方式包含6种维度:指对日志内容按维度值进行统计计算如求日志行数/去重求行数、维度值最大值/最小值、维度值求平均、维度值求和等。

  • 日志求行数:单位时间内,求日志的总行数

  • 去重求行数:单位时间内,不重复的日志行数

  • 维度值求平均:单位时间内,数值列(如数额、耗时、比率)的计算平均值

  • 维度值求和:单位时间内,数值列(如数额、耗时、比率)的计算求和

  • 维度值最大:单位时间内,数值列(如数额、耗时、比率)的计算最大值

  • 维度值最小:单位时间内,数值列(如数额、耗时、比率)的计算最小值

六、自定义列

基于统计列的列名进行加减乘除运算,可以满足简单的二次计算场景,如使用成功量/总量,可以得出成功率。统计列列名作为变量,作为自定义列的计算对象。

image

七、告警配置

系统支持用户自定义设置告警触发规则和阈值,当监控采集的指标数据命中告警规则,即产生业务告警。

说明

业务告警需要衔接【流转规则】,配置相应的报警/事件或故障,即可纳入标准应急流程体系。

一条业务监控项支持配置多条告警规则,每条告警规则可以单独维护规则名称、影响程度、生效时间段、触发条件、列筛选。支持通过克隆方式,微调触发条件,实现快速覆盖多等级告警的能力创建。

  • 规则名称

系统自动生成,可以自定义命名。

  • 影响程度

提醒、警告、严重、致命。

  • 生效时间

设置告警生效的时间段,精确到时分。生效时间外,即使监控指标触发条件也不产生告警。

  • 触发条件

统计列或自定义列在单位时间按取值方式,对比设定的阈值。

image
  • 列筛选

按黑白名单过滤分组列列值,按过滤后的数据进行告警判断。

应急衔接

若用户需要实现监控→应急的闭环,在新增监控项配置后,需要跳转【流转规则】,并完成业务监控的接入配置,才可以实现告警产生→报警/事件/故障产生的流程闭环。

具体流转规则配置,参见文档:【如何配置流转规则

阿里云首页 运维事件中心 相关技术圈