区间检测

通过创建用户体验监控告警规则,您可以制定针对特定用户体验问题的告警规则。当规则被触发时,系统会以您指定的通知方式向告警联系人或钉群发送告警信息,以提醒您采取必要的解决措施。

使用场景

  • Web & H5应用:可以使用此功能来监测Web & H5的性能,包含:LCP(Largest Contentful Paint)最大内容渲染耗时、FID(First Input Delay)首次交互延迟耗时、以及CLS(Cumulativ Layout Shift)累计布局等核心指标,当核心指标出现异常时,系统会立即发出告警,帮助开发人员快速定位和解决问题,从而提升用户使用体验;

  • App应用:可以使用此功能来监测移动端App的性能(包含iOSAndroid应用),支持资源加载、API调用、异常崩溃、卡顿等核心性能指标,自动上报异常堆栈、Crash日志等帮助快速定位和复现问题,提升用户使用体验;

示例:

某应用App发布新版本后,应用卡顿次数明显上升,此时通过提前配置的卡顿次数告警,通过区间检测发现异常,及时发现问题并修复,从而避免影响更多用户。

前提条件

已接入用户体验监控,具体操作,请参见接入应用

配置区间检测

  1. 登录ARMS控制台

  2. 在左侧导航栏中选择用户体验监控 > 告警规则,然后单击创建告警规则

  3. 在创建告警规则页面自定义告警名称,并选择告警检测类型区间检测

  4. 告警对象区域根据需求选择对应的告警应用、指标类型和筛选条件。

    2024-10-12_15-17-22

    参数

    说明

    告警应用

    选择需要创建告警的应用。目前区间检测只支持对单个应用配置告警。

    指标类型

    选择需要检测的指标类型。更多信息,请参见RUM告警规则指标说明

    选择完成后,系统将自动计算上下边界并进行实时渲染,您可以在告警条件区域预览指标走势。

    说明
    • 不同的指标类型告警规则的条件字段和筛选条件不同。

    • 初次渲染耗时较久,大约需要2~4秒。

    • 上下线边界的计算原理,请参见阈值区间计算原理

    筛选条件

    针对指标进行进一步的筛选过滤以缩短监控范围。

    告警指标的维度:

    • 遍历:匹配当前维度下所有告警。

    • =/!=:精准匹配或排除,支持配置多个值。

    • 包含/不包含:模糊匹配或排查,支持配置多个值。

    说明

    如果您希望告警通知中提示某个维度的信息,则需要选取对应的筛选条件,否则在指标查询结果中,对应维度将会被聚合。

  5. 告警规则区域设置告警条件

    参数

    说明

    告警触发模式

    区间检测只支持单条件的触发,不支持多个触发模式的组合。

    告警条件

    根据所选的指标类型,配置告警触发条件。

    • 触发周期:选择告警触发的周期,例如:最近5分钟。

    • 告警指标:选择对应的指标。

    • 触发条件:支持大于等于、小于等于、环比上升/下降%、与上小时同比上升/下降%、与昨日同比上升/下降%等。

    在数据预览区域,蓝色线条代表实际的数据点,绿色区域即上下边界范围。

    说明

    您可以在告警通知中,评估当前告警条件阈值配置是否合理,并查看过去一段时间内是否触发了告警阈值。更多信息,请参见查看告警详情

    容忍度

    基于系统自动计算的上下界为基础进行边界拉伸或者收缩,如果容忍度越高(向右滑动),则上下边界越宽,那么数据被诊断为异常数据阈值越高,越不容易触发告警;如果容忍度越低(向左滑动),则上下边界越窄,那么数据被诊断为异常数据阈值越低,越容易触发告警。

    告警等级

    系统内置了4种告警等级,您可以根据告警级别配置不同的通知策略。

    例如:P1级别电话告警,P2及以下级别钉群通知。

    • P1:critical

    • P2:error

    • P3:warning

    • P4:page

    告警数预测

    查看选定时间段内指标预计超出阈值的次数,单击具体的告警数值,可以查询历史时间点触发告警的指标数值。

    每一次新建或修改告警规则时,都推荐您使用告警数预测功能,该功能通过算法对历史数据进行分析,对选定时间段内进行告警数预测,方便您调整阈值。更多信息,请参见告警数预测功能说明

  6. 设置通知策略高级告警设置

    参数

    说明

    通知策略

    • 不指定通知规则:告警被触发时不会发送告警,仅当通知策略的匹配规则被触发时才会发送告警。

    • 指定通知规则发送告警:告警被触发时,ARMS通过指定通知策略的通知方式发送告警信息。您可以选择已有的通知策略,也可以新建一个通知策略。更多信息,请参见通知策略

    高级告警设置

    无数据情况

    用于无数据、复合指标和环比同比等异常数据的修复。当告警指标没有达到设置的条件时,告警数据修复为0、1或不触发告警。

    更多详细信息,请参见告警管理名词解释

  7. 设置完成后单击保存

查看告警详情

收到告警通知后,您可以在告警通知群或ARMS控制台告警管理 > 告警事件历史页面查看告警详情。

说明

以下几种场景,告警详情暂时无法关联到RUM明细数据。

  • 告警条件中使用了聚合型指标的,例如:异常数量、资源数量、卡顿次数等,暂不支持跳转查看详情。

  • 告警条件中使用了同比、环比等触发条件时,例如:环比上升/下降%、与上小时同比上升/下降%、与昨日同比上升/下降%等,暂不支持跳转查看详情。

告警通知群

在告警通知群中收到告警通知后,您可以直接在告警通知群中查看并管理告警。更多信息,请参见在告警通知群中处理告警

2024-10-12_11-52-37

单击详情链接,可以进入用户体验监控的数据探索页面,查看触发告警的原始数据。

2024-10-12_14-40-56

告警事件历史

告警事件历史页面,单击目标事件名称,可以在弹出的面板中查看事件详情。更多信息,请参见查看告警事件历史

2024-10-12_14-35-51

单击事件地址链接,可以进入用户体验监控的数据探索页面,查看触发告警的原始数据。

2024-10-12_14-40-56

阈值区间计算原理

ARMS的区间检测功能主要基于Prophet算法。配置区间检测任务之后,ARMS会在后台以每24h一次的频率,学习指标历史7天数据的特征,提取指标趋势性、季节性等特征,得到指标未来24h的预测曲线。再根据指标自身的波动情况,也就是误差方差的大小,为未来一天指标的数据做出一个估计区间。在配置区间检测告警时,可以预览算法计算出来的上下边界。下图中,蓝线是指标的实际值,绿色的阴影是上下边界。image.png

与静态阈值推荐功能不同的地方在于,当业务变化导致指标正常水位发生变化后,无需通过手动编辑告警规则的方式更新阈值。这是因为ARMS持续地在以每天一次的频率学习指标的特征,并只预测未来一天的上下边界,因此,您无需多次手动调整阈值。

告警数预测功能说明

告警数预测功能通过算法对历史数据进行分析,从而实现在选定时间段内对告警数进行预测,并展示历史告警发生的时刻。帮助您设置告警静态阈值或调整区间检测的告警灵敏度。

告警数预测原理

ARMS会根据指标历史24h数据,计算指标会超出每个阈值的次数来预测在该设定下告警的数量。并且,ARMS提供了指标详细信息,您可以看到指标实际值超出阈值的具体时间。您可以根据这些信息调整阈值,以适配实际业务需求。