ARMS 报警模板默认提供了多个典型场景下的报警规则配置模板,包括应用监控报警和前端监控报警的场景,可以帮助您快速创建常用的报警规则。

背景信息

ARMS 默认提供的报警模板包括:

  • 应用监控
    • 应用监控默认报警-数据库异常报警模板:数据库响应时间长或数据库调用出错场景的报警
    • 应用监控默认报警-异常调用报警模板:存在超时调用或错误调用场景的报警
    • 应用监控默认报警-主机监控报警模板:CPU 水位过高或磁盘空间不足场景的报警
    • 应用监控默认报警-进程异常报警模板:进程存活场景的报警
    • 应用监控默认报警-GC异常报警模板:有过多的 FullGC、FullGC 耗时长或 YoungGC 耗时长场景的报警
  • 前端监控
    • 前端监控默认报警模板:JS 错误率过高或 JS 错误数过多场景的报警

功能入口

  1. 登录 ARMS 控制台
  2. 在左侧导航栏选择报警管理 > 报警模板管理,跳转至报警模板管理页面。

创建应用监控-数据库异常报警

如果您需要创建判断应用的数据库是否异常的报警规则,则可以单击应用监控默认报警-数据库异常报警右侧操作列的创建报警

db_alarm_database_exception

如上图所示,此报警规则主要是根据两个指标进行判断,满足其中一个判断条件时,即可生成报警事件。

  • 数据库响应时间过长:应用的数据库调用响应时间在 5 分钟内平均每分钟超过或等于 2s。对应的报警指标类型为数据库指标,报警指标为数据库调用响应时间_ms,规则为最近 5 分钟的平均值大于等于 2000。
  • 数据库调用出错:应用的数据库调用错误数在 5 分钟内平均每分钟超过或等于 1 次。对应的报警指标类型为数据库指标,报警指标为数据库调用错误次数,规则为最近 5 分钟的平均值大于等于 1。

创建应用监控-异常调用报警

如果您需要创建判断应用调用是否异常的报警规则,则可以单击应用监控默认报警-异常调用报警右侧操作列的创建报警

db_alarm_exception_invocation

如上图所示,此报警规则主要是根据两个指标进行判断,满足其中一个判断条件时,即可生成报警事件。

  • 存在超时调用:应用向外部提供的接口调用耗时在 5 分钟内平均每分钟超过或等于 2s。对应的报警指标类型为应用调用统计,报警指标为调用响应时间_ms,规则为最近 5 分钟的平均值大于等于 2000。
  • 存在错误调用:应用向外部提供的接口调用错误数在 5 分钟内平均每分钟超过或等于 1 次。对应的报警指标类型为应用调用统计,报警指标为调用错误次数,规则为最近 5 分钟的平均值大于等于 1。

创建应用监控-主机监控报警

如果您需要创建判断应用所在节点的机器是否异常的报警规则,则可以单击应用监控默认报警-主机监控报警右侧操作列的创建报警

db_alarm_host_monitor

如上图所示,此报警规则主要是根据两个指标进行判断,满足其中一个判断条件时,即可生成报警事件。

  • CPU水位过高:应用所在节点的机器所使用的CPU水位在 5 分钟内平均每分钟超过或等于 90%。对应的报警指标类型为主机监控,报警指标为节点机用户使用 cpu_百分比,规则为最近 5 分钟的平均值大于等于 90。
  • 磁盘空间不足:应用所在节点的机器中空闲磁盘在 5 分钟内平均每分钟小于或等于 1MB。对应的报警指标类型为主机监控,报警指标为节点机空闲磁盘_byte,规则为最近 5 分钟的平均值小于等于 1048576(即 1MB)。

创建应用监控-进程异常报警

如果您需要创建判断进程是否存在异常(进程存活)的报警规则,则可以单击应用监控默认报警-进程异常报警右侧操作列的创建报警

db_alarm_process_exceptionpng

如上图所示,此报警规则主要是根据一个指标进行判断,满足此判断条件时,即可生成报警事件。

  • 进程存活:进程存在异常。对应的报警指标类型为JVM 监控,报警指标为jvm_线程总数,规则为最近 1 分钟的平均值与上小时同比下降百分比超过50。

创建应用监控-GC 异常报警

如果您需要创建判断应用是否有 GC 异常的报警规则,则可以单击应用监控默认报警-GC 异常报警右侧操作列的创建报警

db_alarm_gc_exceptionpng

如上图所示,此报警规则主要是根据三个指标进行判断,同时满足以下三个判断条件时,即可生成报警事件。

  • 存在过多 FullGC:应用的 FullGC 次数在 10 分钟内平均每分钟超过或等于 2 次。对应的报警指标类型为JVM 监控,报警指标为jvm_fullgc次数,规则为最近 10 分钟的平均值大于等于 2。
  • FullGC 耗时长:应用的 FullGC 耗时时间在 10 分钟内平均每分钟超过或等于 10s。对应的报警指标类型为JVM 监控,报警指标为jvm_fullgc耗时_ms,规则为最近 10 分钟的平均值大于等于 10000(即 10s)。
  • YoungGC:应用的 YoungGC 耗时时间在 1 分钟内的总耗时超过或等于 5s。对应的报警指标类型为JVM 监控,报警指标为jvm_younggc耗时_ms,规则为最近 1 分钟的总和大于等于 5000(即 5s,此处配置的阈值较大,您可以根据自己的需求进行调整)。

创建前端监控-JS 异常报警

如果您需要创建判断前端应用是否有 JS 异常的报警规则,则可以单击前端监控默认报警右侧操作列的创建报警

db_alarm_js_exception

如上图所示,此报警规则主要是根据两个指标进行判断,同时满足以下两个判断条件时,即可生成报警事件。

  • JS 错误率过高:前端应用的 JS 错误率在 10分钟内每平均超过或等于 20%。对应的报警指标类型为页面指标,报警指标为JS 错误率,规则为最近 10 分钟的平均值大于等于 0.2(即 20%)。
  • JS 错误数过多:前端应用的 JS 错误数在 10分钟内的总和超过或等于 20 次。对应的报警指标类型为页面指标,报警指标为JS 错误数,规则为最近 10 分钟的总和大于等于 20。

更多参考

如果您想要了解创建报警规则中的更多字段和高级配置内容,请参见通用基础字段含义