本文介绍如何设置数据特征中的最小值和最大值。
数据特征中的最小值和最大值是指当前指标在极端情况下最大可接受的边界。当指标值超出该边界时,模型判断该指标异常,并产生异常事件。该异常事件具备最高异常分数(1.0),将触发告警。如果指标值在最小值和最大值范围内,模型会自动拟合数据分布和变化趋势,当数据波动不正常时,输出异常事件。
如果您不确定当前指标的波动范围,可不设置数据特征中的最小值和最大值。模型会自动拟合其所消费的数据的波动范围。如果您设置了范围,则可帮助模型更好的对数据分布进行判断。
例如CPU使用率的边界为0~100。如果您想要针对CPU使用率指标进行智能巡检,且CPU使用率处于0~10范围内都不输出异常事件,超过该范围时才输出异常事件。您可以设置特征为cpu_usage,取值范围为0~100,分段为10。设置完成后,模型将0~100划分为10个桶,各个数据点(CPU使用率指标的值)会落入对应的桶中。
例如数据点为101时,超出最小值和最大值范围,模型将输出异常分数为1.0的异常事件,并产生告警。
例如第1个数据点为3时,落入第1个桶中,第2个数据点为9,也落入第一个桶中。数据点落入同一个桶中,模型会认为是同类变化,不会输出异常事件。
设置数据特征中的最小值和最大值不当易触发告警风暴。如果不确定,请提交工单进行咨询。
如果指标值超过最小值和最大值范围,模型会输出异常分数为1.0的异常事件,并产生告警。
如果指标值在最小值和最大值范围内,模型也会捕捉不正常的时序变化,异常分数范围为(0, 1)。
智能巡检所发送的告警遵循告警抑制原则,即每个作业每分钟只发送一条告警。告警系统会自动聚合一分钟内捕捉到的所有异常事件,只发送最高分数的异常事件所产生的告警。您可在智能巡检作业所在的Project中,通过对应的仪表盘中查看异常事件的详情。