ARMS报警模板默认提供了多个典型场景下的报警规则配置模板,包括应用监控报警和前端监控报警的场景,可以帮助您快速创建常用的报警规则。

背景信息

ARMS默认提供的报警模板包括:

  • 应用监控
    • 应用监控默认报警-数据库异常报警模板:数据库响应时间长或数据库调用出错场景的报警。
    • 应用监控默认报警-异常调用报警模板:存在超时调用或错误调用场景的报警。
    • 应用监控默认报警-主机监控报警模板:CPU水位过高或磁盘空间不足场景的报警。
    • 应用监控默认报警-进程异常报警模板:进程存活场景的报警。
    • 应用监控默认报警-GC异常报警模板:FullGC过多、FullGC耗时长或YoungGC耗时长场景的报警。
  • 前端监控
    • 前端监控默认报警模板:JS错误率过高或JS错误数过多场景的报警。

功能入口

  1. 登录ARMS控制台
  2. 在左侧导航栏选择报警管理 > 报警模板管理,跳转至报警模板管理页面。

创建数据库异常报警模板的应用监控

如果您需要创建判断应用的数据库是否异常的报警规则,则可以单击应用监控默认报警-数据库异常报警右侧操作列的创建报警

db_alarm_database_exception

如上图所示,此报警规则主要是根据两个指标进行判断,满足其中一个判断条件时,即可生成报警事件:

  • 数据库响应时间过长:应用的数据库调用响应时间在5分钟内平均每分钟超过或等于2s。对应的报警指标类型为数据库指标,报警指标为数据库调用响应时间_ms,规则为最近5分钟的平均值大于等于2000。
  • 数据库调用出错:应用的数据库调用错误数在5分钟内平均每分钟超过或等于1次。对应的报警指标类型为数据库指标,报警指标为数据库调用错误次数,规则为最近5分钟的平均值大于等于1。

创建异常调用报警模板的应用监控

如果您需要创建判断应用调用是否异常的报警规则,则可以单击应用监控默认报警-异常调用报警右侧操作列的创建报警

db_alarm_exception_invocation

如上图所示,此报警规则主要是根据两个指标进行判断,满足其中一个判断条件时,即可生成报警事件:

  • 存在超时调用:应用向外部提供的接口调用耗时在5分钟内平均每分钟超过或等于2s。对应的报警指标类型为应用调用统计,报警指标为调用响应时间_ms,规则为最近5分钟的平均值大于等于2000。
  • 存在错误调用:应用向外部提供的接口调用错误数在5分钟内平均每分钟超过或等于1次。对应的报警指标类型为应用调用统计,报警指标为调用错误次数,规则为最近5分钟的平均值大于等于1。

创建主机监控报警模板的应用监控

如果您需要创建判断应用所在节点的机器是否异常的报警规则,则可以单击应用监控默认报警-主机监控报警右侧操作列的创建报警

db_alarm_host_monitor

如上图所示,此报警规则主要是根据两个指标进行判断,满足其中一个判断条件时,即可生成报警事件:

  • CPU水位过高:应用所在节点的机器所使用的CPU水位在5分钟内平均每分钟超过或等于90%。对应的报警指标类型为主机监控,报警指标为节点机用户使用cpu_百分比,规则为最近5分钟的平均值大于等于90。
  • 磁盘空间不足:应用所在节点的机器中空闲磁盘在5分钟内平均每分钟小于或等于1MB。对应的报警指标类型为主机监控,报警指标为节点机空闲磁盘_byte,规则为最近5分钟的平均值小于等于1048576(即1MB)。

创建进程异常报警模板的应用监控

如果您需要创建判断进程是否存在进程异常的报警规则,则可以单击应用监控默认报警-进程异常报警右侧操作列的创建报警

db_alarm_process_exceptionpng

如上图所示,此报警规则主要是根据一个指标进行判断,满足此判断条件时,即可生成报警事件:

  • 进程存活:进程存在异常。对应的报警指标类型为JVM监控,报警指标为jvm_线程总数,规则为最近1分钟的平均值与上小时同比下降百分比超过50。

创建GC异常报警模板的应用监控

如果您需要创建判断应用是否有GC异常的报警规则,则可以单击应用监控默认报警-GC异常报警右侧操作列的创建报警

db_alarm_gc_exceptionpng

如上图所示,此报警规则主要是根据三个指标进行判断,同时满足以下三个判断条件时,即可生成报警事件:

  • FullGC过多:应用的FullGC次数在10分钟内平均每分钟超过或等于2次。对应的报警指标类型为JVM监控,报警指标为jvm_fullgc次数,规则为最近10分钟的平均值大于等于2。
  • FullGC耗时长:应用的FullGC耗时时间在10分钟内平均每分钟超过或等于10s。对应的报警指标类型为JVM监控,报警指标为jvm_fullgc耗时_ms,规则为最近10分钟的平均值大于等于10000(即10s)。
  • YoungGC耗时长:应用的YoungGC耗时时间在1分钟内的总耗时超过或等于5s。对应的报警指标类型为JVM监控,报警指标为jvm_younggc耗时_ms,规则为最近1分钟的总和大于等于5000(即5s,此处配置的阈值较大,您可以根据自己的需求进行调整)。

创建JS异常报警模板的前端监控

如果您需要创建判断前端应用是否有JS异常的报警规则,则可以单击前端监控默认报警右侧操作列的创建报警

db_alarm_js_exception

如上图所示,此报警规则主要是根据两个指标进行判断,同时满足以下两个判断条件时,即可生成报警事件:

  • JS错误率过高:前端应用的JS错误率在10分钟内每平均超过或等于20%。对应的报警指标类型为页面指标,报警指标为JS错误率,规则为最近10分钟的平均值大于等于0.2(即20%)。
  • JS错误数过多:前端应用的JS错误数在10分钟内的总和超过或等于20次。对应的报警指标类型为页面指标,报警指标为JS错误数,规则为最近10分钟的总和大于等于20。

更多参考

如果您想要了解创建报警规则中的更多字段和高级配置内容,请参见通用基础字段含义