巡检配置

智能洞察是一个对应用进行定时巡检的智能运维工具。针对巡检后发现的事件,智能洞察可以给出具体的根因分析和建议。智能洞察内置了多种巡检模块, 您可以根据巡检需求定制模块参数。本文介绍如何修改巡检模块参数并管理巡检模块。

功能入口

  1. 登录ARMS控制台
  2. 在左侧导航栏选择智能洞察 > 巡检配置

  3. 在顶部菜单栏,选择地域。

巡检配置页面可以查看智能洞察预置的巡检模块。目前,智能洞察支持以下6种巡检模块:

  • 错误率突增巡检模块:使用系统内置的异常检测算法基于历史数据来自动判断应用错误率是否存在异常,如果发现异常则会产生相应的异常事件并进行根因分析。

  • 平均响应时间突增巡检模块:使用系统内置的异常检测算法基于历史数据来自动判断应用平均响应时间是否存在异常,如果发现异常则会产生相应的异常事件并进行根因分析。

  • 流量突增巡检模块:使用系统内置的异常检测算法基于历史数据来自动判断应用流量是否异常突增,如果发现异常则会产生相应的异常事件并对流量突增来源进行分析。

  • 流量分布巡检模块:基于应用最近15分钟某个类型服务(如HTTP、Dubbo、HSF)的流量数据,判断应用是否存在流量不均异常。默认单机5分钟流量不小于1000,默认最大流量和最小流量差30%。如果发现异常则会产生相应的异常事件并进行根因分析。

  • 新增异常巡检模块:使用系统内置的检测算法基于历史数据来自动判断应用是否存在新增异常,如有则会产生相应的异常事件并进行分析。

  • 实例级服务指标离群巡检模块:基于应用最近1小时的服务指标数据来判断是否存在部分实例的服务指标与服务整体指标的中位数相比存在显著差异,如果发现异常则会产生相应的异常事件并进行分析。

启停模块

智能洞察预置的巡检模块默认都是开启状态,如果您需要关闭指定模块,或开启已关闭的模块,在模块管理页签单击目标模块右侧对应的开关即可。

巡检模块关闭后,智能洞察将不会巡检对应类型的事件。各巡检模块对应的事件类型如下:

巡检模块

事件类型

错误率突增巡检模块

  • Top N接口错误率突增

  • 应用服务整体错误率突增

平均响应时间突增巡检模块

  • Top N接口平均响应时间突增

  • 应用服务整体平均响应时间突增

流量突增巡检模块

应用服务整体流量突增

流量分布巡检模块

流量不均

新增异常巡检模块

新增异常

实例级服务指标离群巡检模块

  • 实例请求量离群

  • 实例响应时间离群

  • 实例错误率离群

修改模块参数

说明

流量分布巡检模块暂不支持修改模块参数。

巡检配置页面单击目标模块右侧操作列的编辑,在模块修改面板中修改参数后单击确定

各巡检模块的参数说明如下:

表 1. 错误率突增巡检模块

参数

说明

开启

  • 开启:系统将检测应用整体的错误率是否异常。

  • 关闭:不再触发相关功能。

Top N接口检测

  • 开启:系统将根据设置的Top N参数,筛选出对应的接口,然后逐一检测每个接口的错误率是否存在异常。

  • 关闭:不再触发相关功能。

额外接口

如果Top N接口无法满足您的巡检诉求,您可以在此处添加自己关心的接口。额外接口的优先级最高。

应用黑名单

如果某些应用完全不需要巡检,可以在此处添加。

接口黑名单

如果某些接口不需要巡检,可以在此处添加。优先级仅次于额外接口。

高级设置

检测阈值设定

待检测资源需同时满足下述所有条件,否则检查将被跳过。

  • 最小检测RT(ms):当待检测的应用或接口的RT低于设置的阈值时,系统将不进行检查。

  • 最小检测流量(qps):当待检测的应用或接口的流量低于设置的阈值时,系统将不进行检查。

  • 最小检测错误率(百分比):当待检测的应用或接口的错误率低于设置的阈值时,系统将不进行检查。

异常阈值设定

系统检测到错误率升高,且当升高的情况满足下述任一条件时,系统都会生成异常事件并进行根因诊断。

  • 异常持续时长(分钟):当异常情况持续设置时间,才会被认定为有效异常,避免毛刺影响。

  • 错误率增幅:当错误率增幅超过设置的阈值时,才会被认定为有效异常。

  • 错误率大于(百分比):当错误率大于设置的阈值时,才会被认定为有效异常。

  • 错误数大于:当错误数大于设置的阈值时,才会被认定为有效异常。

表 2. 平均响应时间突增巡检模块

参数

说明

开启

  • 开启:系统将检测应用整体的平均响应时间是否异常。

  • 关闭:不再触发相关功能。

Top N接口检测

  • 开启:系统将根据设置的Top N参数,筛选出对应的接口,然后逐一检测每个接口的平均响应时间是否存在异常。

  • 关闭:不再触发相关功能。

额外接口

如果Top N接口无法满足您的巡检诉求,您可以在此处添加自己关心的接口。额外接口的优先级最高。

应用黑名单

如果某些应用完全不需要巡检,可以在此处添加。

接口黑名单

如果某些接口不需要巡检,可以在此处添加。优先级仅次于额外接口。

高级设置

最小检测RT(ms)

当待检测的应用或接口的RT低于设置的阈值时,系统将不进行检查。

最小检测流量(qps)

当待检测的应用或接口的流量低于设置的阈值时,系统将不进行检查。

异常阈值设定

系统检测到RT升高,且当升高的情况满足下述任一条件时,系统都会生成异常事件并进行根因诊断。

  • 异常持续时长(分钟):当异常情况持续设置时间,才会被认定为有效异常,避免毛刺影响。

  • RT增幅:当RT增幅超过设置的阈值时,才会被认定为有效异常。

  • RT大于:当RT大于设置的阈值时,才会被认定为有效异常。

表 3. 流量分布巡检模块

参数

说明

开启

  • 开启:系统将检测应用整体的流量分布情况。

  • 关闭:不再触发相关功能。

应用黑名单

如果某些应用完全不需要巡检,可以在此处添加。

巡检最低流量/每分钟

当待检测的应用或接口的流量低于设置的阈值时,系统将不进行检查。

流量差异比上限/每分钟

流量小机器/流量大机器低于该上限则认为异常。

最小异常点个数

30分钟检测窗口内至少多少个点满足流量差异比则产生异常事件,默认5个。

表 4. 新增异常巡检模块

参数

说明

开启

  • 开启:系统将检测应用整体的新增异常情况。

  • 关闭:不再触发相关功能。

应用黑名单

如果某些应用完全不需要巡检,可以在此处添加。

基线范围(天)

系统将使用基线范围内的异常作为基准异常,不在其中的将被识别为新增异常。

异常最小发生次数/每分钟

当新增异常每分钟发生次数低于此值时将不会产生事件。

表 5. 实例级服务指标离群巡检模块

参数

说明

开启

  • 开启:系统将检测应用实例级服务指标离群情况。

  • 关闭:不再触发相关功能。

Top N接口检测

  • 开启:系统将根据设置的Top N参数,筛选出对应的接口,然后逐一检测每个接口的服务指标是否存在异常。

  • 关闭:不再触发相关功能。

额外接口

如果Top N接口无法满足您的巡检诉求,您可以在此处添加自己关心的接口。额外接口的优先级最高。

应用黑名单

黑名单中的应用将不进行巡检

接口黑名单

如果某些接口不需要巡检,可以在此处添加。优先级仅次于额外接口。

高级设置

检测阈值设定

待检测资源需同时满足下述所有条件,否则检查将被跳过。

  • 最小检测RT(ms):当待检测的应用或接口的RT低于设置的阈值时,系统将不进行检查。

  • 最小检测流量(qpm):当待检测的应用或接口的流量低于设置的阈值时,系统将不进行检查。

异常阈值设定

当异常持续时长超过设置时长且满足其他任一条件时判定为有效异常,否则忽略。

异常持续时长(分钟):当异常情况持续设置时间,才会被认定为有效异常,避免毛刺影响。