本文主要介绍如何进行业务监控的配置。
监控配置
业务监控提供了一种日志数据分析&统计的监控方式,支持用户根据不同的服务,配置多个业务监控项。
以下为监控项配置过程引导。
一、打开页面
点击菜单【监控中心-业务监控】,打开业务监控页面。
本页面展示已配置的监控项,支持按关联服务、监控项名称和告警状态进行模糊搜索。
右上角小框展示当前数据源为API的监控项条数,支持添加【新建按钮】,创建新的业务监控配置。
二、新增监控
点击【新建按钮】,打开新增页面。
设定监控项名称,选择监控项的归属服务、数据来源(默认API)。
创建业务监控项的前提,是当前服务已经通过【集成配置】获取API Key,并向运维事件中心推送了日志数据。否则无法进行日志解析和统计指标配置。
三、日志筛选
系统支持按黑白名单配置,过滤日志数据。
黑名单:按规则过滤,并丢弃含黑名单字段的日志。相当于 SQL 里的[Where Field < >?]。
白名单:按规则过滤,并丢弃不包含白名单字段的日志。类似SQL里的[Where Field =?]。
黑白名单可以组合件进行日志筛选,黑名单的过滤优先级高于白名单。
1.白名单设置方式:
点击【新增白名单】按钮,点击【白名单列】,打开弹窗,手动命名白名单列名如result。
选取规则:
在示例日志数据中手动划选某个字段的value值或字符,系统自动定位关键字的位置,并生成列值选取规则,如:左起第 1 个 :至,。按选取规则解析示例日志,并在侧边栏展示此位置出现的字段列值和出现次数。
选取规则支持手动输入,修改第X个M至N,按修改后的规则自动匹配到相应区域的日志字段。
列值翻译
系统支持将按规则选取的列值进行统一翻译,如4XX状态码统一翻译为error,200翻译为success。便于统计成功或失败结果。
白名单值
支持手动设定取值范围内的特定值为白名单,如过滤result:success的日志数据,将success设为白名单值。若需要设定多个值,可以以英文逗号,分隔。支持取翻译后的列值回填,并过滤翻译值与原始值。
如401,402,404翻译为error,白名单值设error后,将会一并过滤401,402,404以及error。
2.黑名单设置方式:
黑名单设置方式同白名单一致。
四、列值分组
列值分组等同于SQL中的GroupBy功能,Group表示分组,By表示按分组列的值进行分组。
列值分组的选值规则同黑白名单一致,按手动划选区域定位关键字。通过选取规则获取到的列值进行分组,用于抽象成为分组列如时间、数值、结果等。
分组列可以设定列值范围为明确的值如success,Y等,多个值之间用英文,切割。若不限定分组值,可以设为星号*,将按选值规则定位区域的所有值进行GroupBy。
分组列可以配多个分组,按用户需要自定义添加和删减。
五、统计列
统计列,是基于列值分组后的数据,进行下一步的维度数据计算。
统计方式包含6种维度:指对日志内容按维度值进行统计计算如求日志行数/去重求行数、维度值最大值/最小值、维度值求平均、维度值求和等。
日志求行数:单位时间内,求日志的总行数
去重求行数:单位时间内,不重复的日志行数
维度值求平均:单位时间内,数值列(如数额、耗时、比率)的计算平均值
维度值求和:单位时间内,数值列(如数额、耗时、比率)的计算求和
维度值最大:单位时间内,数值列(如数额、耗时、比率)的计算最大值
维度值最小:单位时间内,数值列(如数额、耗时、比率)的计算最小值
六、自定义列
基于统计列的列名进行加减乘除运算,可以满足简单的二次计算场景,如使用成功量/总量,可以得出成功率。统计列列名作为变量,作为自定义列的计算对象。
七、告警配置
系统支持用户自定义设置告警触发规则和阈值,当监控采集的指标数据命中告警规则,即产生业务告警。
业务告警需要衔接【流转规则】,配置相应的报警/事件或故障,即可纳入标准应急流程体系。
一条业务监控项支持配置多条告警规则,每条告警规则可以单独维护规则名称、影响程度、生效时间段、触发条件、列筛选。支持通过克隆方式,微调触发条件,实现快速覆盖多等级告警的能力创建。
规则名称
系统自动生成,可以自定义命名。
影响程度
提醒、警告、严重、致命。
生效时间
设置告警生效的时间段,精确到时分。生效时间外,即使监控指标触发条件也不产生告警。
触发条件
统计列或自定义列在单位时间按取值方式,对比设定的阈值。
列筛选
按黑白名单过滤分组列列值,按过滤后的数据进行告警判断。
应急衔接
若用户需要实现监控→应急的闭环,在新增监控项配置后,需要跳转【流转规则】,并完成业务监控的接入配置,才可以实现告警产生→报警/事件/故障产生的流程闭环。
具体流转规则配置,参见文档:【如何配置流转规则】