本文以钉钉通知渠道为例,介绍如何对智能巡检的告警进行打标反馈,逐步调整模型,以获取符合预期的告警。
前提条件
已创建智能巡检作业。具体操作,请参见通过SQL聚合指标数据进行智能巡检。
已创建并获取钉钉机器人的Webhook链接。具体操作,请参见钉钉-自定义。
背景信息
创建智能巡检作业后,日志服务自动在您所指定的Project下生成一个名为internal-ml-log的Logstore,用于存储当前Project下所有智能巡检作业的输出结果。当您为智能巡检作业设置告警时,告警系统会自动识别该Logstore,并生成告警所需的如下资源。
告警策略:sls.builtin.dynamic
行动策略:sls.app.ml.builtin
内容模板:SLS智能巡检内置内容模板
您可以直接使用上述的内置告警资源,也可以使用自定义的告警资源。更多信息,请参见什么是日志服务告警。
操作步骤
在日志服务控制台,设置钉钉通知渠道。
说明如果您已在创建目标智能巡检作业时设置了钉钉通知渠道,可跳过此步骤。
登录日志服务控制台。
在日志应用区域,单击智能异常分析。
单击实时检测。
在实例列表中,单击目标实例。
在智能巡检页面,单击目标智能巡检作业对应的图标。
在编辑智能巡检作业向导页面,单击下一步,直至跳转到告警配置页签。
在告警配置页签下,选择极简模式,设置请求地址,然后单击完成。
请求地址为您所获取的钉钉机器人的Webhook链接。
说明智能巡检内置了内容模板SLS智能巡检内置内容模板,可以渲染时序图,并提供反馈入口。使用钉钉渠道发送告警进行了较好的前端适配,因此建议您使用钉钉渠道接收告警。如果您需要使用其他渠道接收告警,请参见配置其他通知渠道。
告警配置示例如下:
参数
说明
告警策略
告警策略用于合并、静默和抑制已产生的告警。
选择极简模式或普通模式时,您无需配置告警策略。日志服务默认使用SLS内置动态告警策略(sls.builtin.dynamic)进行告警管理。
选择高级模式时,您可以自定义选择行动策略和告警策略。如何创建告警策略,请参见创建告警策略。
行动策略
行动策略用于控制告警通知渠道和频率等。
配置完成后,您将在钉钉群中收到告警通知。
在钉钉群,打标告警通知。
在告警通知中,单击查看详情。
参数
说明
数据源
智能巡检的数据源。
异常对象
异常的具体实体。
异常程度
模型量化的异常程度。
结果可视化
在捕捉异常时刻之前的一个观测长度里的指标变化。
数据详情
单击该链接,可查看数据源。
作业详情
单击该链接,可查看智能巡检作业详情。
查看详情
日志服务支持您无需登录控制台就可以进行查看告警详情等操作。更多信息,请参见免登录查看告警详情。
在详情对话框中,判断告警是否符合预期,完成打标。
如果告警符合预期,单击确认。
如果告警不符合预期,单击忽略。
打标完成后,您的打标结果会被反馈给智能巡检。智能巡检将根据打标反馈,逐步调整模型,以使之后的告警符合您的预期。
配置其他通知渠道
如果您希望通过其他通知渠道(例如自定义WebHook)打标告警,您可以在设置告警时选择其他渠道。更多信息,请参见通知渠道说明。选择其他渠道时,需先为其他渠道配置内容模板。操作如下:
解析钉钉渠道的内容模板。
钉钉渠道的内容模板如下:
## 数据源 + Project: ${results[0].project} + LogStore: ${results[0].store} ## 异常对象 + Entity: ${labels} ## 异常程度 + Score: ${annotations.anomaly_score} ## 异常时序图 ![image](${annotations.__plot_image__}) [[数据详情](${query_url})] [[作业详情](${alert_url})] [[确认](${annotations.__ensure_url__})] [[误报](${annotations.__mismatch_url__})]
关于内容模板变量的说明,请参见内容模板变量说明(新版)。
根据钉钉渠道的内容模板,为其他通知渠道配置内容模板。