阈值检测

通过创建阈值检测告警规则,您可以制定针对特定应用的告警规则。当告警规则被触发时,系统会以您指定的通知方式向告警联系人或钉群发送告警信息,以提醒您采取必要的解决措施。

前提条件

已接入应用监控 eBPF 版,具体操作,请参见一键接入应用至应用监控 eBPF 版手动接入应用至应用监控 eBPF 版

配置阈值检测

  1. 登录ARMS控制台,在左侧导航栏单击应用监控 eBPF 版 > 应用监控告警规则

  2. 在告警规则页面单击创建应用实时监控 eBPF 版告警规则

  3. 创建应用实时监控 eBPF 版告警规则页面自定义告警名称,并选择告警检测类型阈值检测

  4. 告警对象区域根据需求选择对应的告警应用、指标类型和筛选条件。

    参数

    说明

    告警应用

    选择需要检测的应用。可以选择多个应用或全部应用。

    新建应用时自动在此告警规则中追加

    是否将之后接入的应用自动接入当前告警。

    指标类型

    选择需要检测的指标类型。更多信息,请参见告警规则指标说明

    说明

    不同的指标类型告警规则的条件字段和筛选条件不同。

    筛选条件

    针对指标进行进一步的筛选过滤以缩短监控范围。

    告警指标的维度:

    • 遍历:会在告警内容中透出实际触发告警的维度内容。

    • 无:告警内容中透出这个维度所有数值的和。

    • = :告警中只透出当前设置维度的内容。

    • !=:告警中只透出不等于设置维度的内容。

    • 包含:告警中只透出包含设置维度的内容。

    • 不包含:告警中只透出不包含设置维度的内容。

    • 正则匹配:告警中只透出正则匹配设置维度的内容。

  5. 告警规则区域选择告警触发模式并设置告警条件

    参数

    说明

    告警触发模式

    • 单条件:满足下述的规则就会触发告警。

    • 多条件:选择告警触发规则

      • 同时满足下述规则:需满足所有告警条件才会触发告警。

      • 满足下述一条规则:满足任意一条告警条件就会触发告警。

    告警条件

    单条件:

    设置告警规则表达式,可以根据设定不同阈值对应不同严重程度的告警。

    告警严重程度从P4、P3、P2、P1逐级上升,您可以按需填写对应等级的阈值,无需对所有告警等级都设置阈值。

    示例1:最近5分钟JVM FullGC次数平均大于1次,触发P4等级告警;大于2次,触发P3等级告警;大于5次,触发P2等级告警;大于10次,触发P1等级告警。

    示例2:最近5分钟JVM FullGC次数平均大于1次,触发P4等级告警。

    多条件:

    单击添加条件,设置告警规则表达式。

    例如:

    告警触发规则:同时满足下述规则

    条件1:最近2分钟,调用错误率平均值大于等于5%。

    条件2:最近2分钟,调用次数大于等于200。

    多条件模式下还需设置对应的告警等级,告警严重程度从P4、P3、P2、P1逐级上升。

    填入P4建议阈值

    可以根据阈值与指标的对比图调节阈值。当该规则对多个应用生效时,可以单击应用右侧image.png图标,对不同应用生成不同的建议阈值。

    ARMS通过智能算法根据指标历史水位为您推荐建议阈值。更多信息,请参见建议阈值说明

    告警数预测

    查看选定时间段内指标预计超出阈值的次数,单击具体的告警数值,可以查询历史时间点触发告警的指标数值。

    每一次新建或修改告警规则时,都推荐您使用告警数预测功能,该功能通过算法对历史数据进行分析,对选定时间段内进行告警数预测,方便您调整阈值。更多信息,请参见告警数预测功能说明

  6. 设置通知策略高级告警设置

    参数

    说明

    通知策略

    • 不指定通知规则:告警被触发时不会发送告警,仅当通知策略的匹配规则被触发时才会发送告警。

    • 指定通知规则发送告警:告警被触发时,ARMS通过指定通知策略的通知方式发送告警信息。您可以选择已有的通知策略,也可以新建一个通知策略。更多信息,请参见通知策略

    高级告警设置

    无数据情况

    用于无数据、复合指标和环比同比等异常数据的修复。当告警指标没有达到设置的条件时,告警数据修复为0、1或不触发告警。

    更多详细信息,请参见告警管理名词解释

  7. 设置完成后单击保存

建议阈值说明

建议阈值功能可以根据您选择的应用、接口和告警指标,通过智能算法对该指标的历史数据进行分析,为您推荐较为合理的静态阈值。该功能还支持实时生成指标和阈值的对比图,方便您调节阈值。

应用场景

  • 当您发现经常收到某条告警,但是系统又没有发生任何故障时,可能是因为当前的阈值设置得不够合理,或者是该阈值不适合某些应用或接口。这种场景下,您可以使用建议阈值功能,对告警规则的阈值进行调整,或对部分应用、接口的阈值进行调整,ARMS会自动根据历史数据为您推荐合理的新阈值。

  • 当您需要对大量应用、接口的某一指标配置告警,但是不同应用,不同接口适合的告警阈值又不同时,可以使用建议阈值功能。您无需手动为每一个应用/接口设置告警阈值,建议阈值功能通过智能算法可以帮您快速完成设置。

实现原理

当您单击填入P4建议阈值后,ARMS就会自动拉取每个应用、每个接口对应指标的历史3天数据,然后通过N-sigma算法计算每个指标历史3天的均值和方差。具体来说,假设您的业务没有发生明显变化,因此可以假设指标服从一个正态分布,那么,指标偏离期望3倍标准差的概率很小。基于这个原理,根据历史3天该指标的平均水位与波动情况,即可给出一个建议阈值。

告警等级中,P4表示最不严重的告警,这个建议阈值仅表示指标有些许异常,您可以根据P4建议阈值,设置P1、P2、P3等更严重的告警阈值。

告警数预测功能说明

告警数预测功能通过算法对历史数据进行分析,从而实现在选定时间段内对告警数进行预测,并展示历史告警发生的时刻。帮助您设置告警静态阈值或调整区间检测的告警灵敏度。

告警数预测原理

ARMS会根据指标历史24h数据,计算指标会超出每个阈值的次数来预测在该设定下告警的数量。并且,ARMS提供了指标详细信息,您可以看到指标实际值超出阈值的具体时间。您可以根据这些信息调整阈值,以适配实际业务需求。