告警与打标反馈

本文以钉钉通知渠道为例,介绍如何对智能巡检的告警进行打标反馈,逐步调整模型,以获取符合预期的告警。

前提条件

背景信息

创建智能巡检作业后,日志服务自动在您所指定的Project下生成一个名为internal-ml-log的Logstore,用于存储当前Project下所有智能巡检作业的输出结果。当您为智能巡检作业设置告警时,告警系统会自动识别该Logstore,并生成告警所需的如下资源。

  • 告警策略:sls.builtin.dynamic

  • 行动策略:sls.app.ml.builtin

  • 内容模板:SLS智能巡检内置内容模板

您可以直接使用上述的内置告警资源,也可以使用自定义的告警资源。更多信息,请参见什么是日志服务告警

操作步骤

  1. 在日志服务控制台,设置钉钉通知渠道。

    说明

    如果您已在创建目标智能巡检作业时设置了钉钉通知渠道,可跳过此步骤。

    1. 登录日志服务控制台

    2. 日志应用区域,单击智能异常分析

    3. 单击实时检测

    4. 在实例列表中,单击目标实例。

    5. 智能巡检页面,单击目标智能巡检作业对应的修改图标。

    6. 编辑智能巡检作业向导页面,单击下一步,直至跳转到告警配置页签。

    7. 告警配置页签下,选择极简模式,设置请求地址,然后单击完成

      请求地址为您所获取的钉钉机器人的Webhook链接。

      说明

      智能巡检内置了内容模板SLS智能巡检内置内容模板,可以渲染时序图,并提供反馈入口。使用钉钉渠道发送告警进行了较好的前端适配,因此建议您使用钉钉渠道接收告警。如果您需要使用其他渠道接收告警,请参见配置其他通知渠道

      告警配置示例如下:

      打标反馈

      参数

      说明

      告警策略

      告警策略用于合并、静默和抑制已产生的告警。

      • 选择极简模式普通模式时,您无需配置告警策略。日志服务默认使用SLS内置动态告警策略(sls.builtin.dynamic)进行告警管理。

      • 选择高级模式时,您可以自定义选择行动策略和告警策略。如何创建告警策略,请参见创建告警策略

      行动策略

      行动策略用于控制告警通知渠道和频率等。

      • 告警策略选择为极简模式时,您只需配置行动组即可。

        您配置行动组后,日志服务自动为您创建一个名为规则名称-行动策略的行动策略。由该告警监控规则触发的所有告警都通过该行动策略发送通知。如何配置,请参见通知渠道说明

        重要

        您可以在行动策略管理页面,修改该行动策略。具体操作,请参见创建行动策略。如果您在修改行动策略时添加了判断条件,则此处的告警策略将自动变更为普通模式

      • 告警策略选择为普通模式高级模式时,您可以选择内置的或自定义的行动策略进行告警通知。如何创建行动策略,请参见创建行动策略

        其中,您选择告警策略选择为高级模式时,还可以开启或关闭自定义行动策略。更多信息,请参见动态行动策略机制

    配置完成后,您将在钉钉群中收到告警通知。

  2. 在钉钉群,打标告警通知。

    1. 在告警通知中,单击查看详情

      告警通知

      参数

      说明

      数据源

      智能巡检的数据源。

      异常对象

      异常的具体实体。

      异常程度

      模型量化的异常程度。

      结果可视化

      在捕捉异常时刻之前的一个观测长度里的指标变化。

      数据详情

      单击该链接,可查看数据源。

      作业详情

      单击该链接,可查看智能巡检作业详情。

      查看详情

      日志服务支持您无需登录控制台就可以进行查看告警详情等操作。更多信息,请参见免登录查看告警详情

    2. 详情对话框中,判断告警是否符合预期,完成打标。

      • 如果告警符合预期,单击确认

      • 如果告警不符合预期,单击忽略

      打标

    打标完成后,您的打标结果会被反馈给智能巡检。智能巡检将根据打标反馈,逐步调整模型,以使之后的告警符合您的预期。

配置其他通知渠道

如果您希望通过其他通知渠道(例如自定义WebHook)打标告警,您可以在设置告警时选择其他渠道。更多信息,请参见通知渠道说明。选择其他渠道时,需先为其他渠道配置内容模板。操作如下:

  1. 解析钉钉渠道的内容模板。

    钉钉渠道的内容模板如下:

    ## 数据源
    + Project: ${results[0].project}
    + LogStore: ${results[0].store}
    
    ##  异常对象
    + Entity: ${labels}
    
    ## 异常程度
    + Score: ${annotations.anomaly_score}
    
    ## 异常时序图
    ![image](${annotations.__plot_image__})
    
    [[数据详情](${query_url})]
    [[作业详情](${alert_url})]
    
    [[确认](${annotations.__ensure_url__})]
    [[误报](${annotations.__mismatch_url__})]

    关于内容模板变量的说明,请参见内容模板变量说明(新版)

  2. 根据钉钉渠道的内容模板,为其他通知渠道配置内容模板。

    在内容模板列表中,找到SLS智能巡检内置内容模板,进行配置。如何进入内容模板页面,请参见步骤2

    您在配置内容模板时,可以使用默认的内容模板,也可以自定义内容模板。更多信息,请参见默认内容模板通知内容定制