通过SQL聚合指标数据进行模型训练

智能巡检功能用于对业务日志进行自动化、智能化、自适应的异常巡检。本文介绍通过SQL聚合指标数据进行模型训练的操作步骤。

前提条件

  • 已采集日志到源Logstore。具体操作,请参见数据采集概述

  • 已配置源Logstore的索引。具体操作,请参见创建索引

  • 已创建智能异常分析实例。具体操作,请参见创建实例

重要

本文中所涉及的Logstore为Standard Logstore。更多信息,请参见管理Logstore

创建智能巡检作业

进入创建作业页面

  1. 登录日志服务控制台

  2. 进入创建作业页面。

    1. 日志应用区域,单击智能异常分析

    2. 在实例列表中,单击目标实例。

    3. 在左侧导航栏中,单击智能巡检

    4. 单击实时检测

    5. 巡检任务区域,单击立即创建

基础信息

创建智能巡检作业配置向导的基础信息区域,完成如下配置,然后单击下一步

参数

说明

任务名

自定义设置智能巡检作业的名称。

Project

选择源日志库或时序库所在的Project。

地域

您所选择的Project的所在地域。

日志库类型

根据您数据存储的位置选择日志库类型。

  • 如果您的数据存储在日志库中,则选中日志库

  • 如果您的数据存储在时序库中,则选中时序库

源日志库

日志库类型设置为日志库时,需要设置源日志库,即您的源数据所在的日志库。

时序库

日志库类型设置为时序库时,需要设置时序库,设置为您的源数据所在的时序库。

角色

如果您在创建实例时已完成了授权,则此处会自动显示AliyunLogETLRole角色的角色标识。

目标库

目标日志库,固定为internal-ml-log

数据特征配置

在数据特征配置时,如果待分析的时序数据有异常标签,选择数据特征配置。如果待分析的时序数据没有异常标签,选择异常注入

  1. 查询分析语句的更多信息,请参见查询概述分析概述

    数据特征配置

    • 查询语句

      * | select (__time__ - __time__%60) as time, entity, count(*) as metric, if(count(*) > 1000, 1, 0) as label from log group by time, entity limit 1000000
    • 标签名:label

    • 实体:enetity

    • 特征:metric

      参数

      说明

      时间

      源数据中用于标识时间列的字段。

      粒度

      数据的观测间隔。单位为秒。取值范围为5~3600,建议观测间隔不小于60。

      实体

      源数据中用于标识具体实体的字段。智能巡检作业围绕实体标识,聚合出时间序列。

      特征

      源数据中用于标识具体特征数据的字段。

      标签名

      源数据中用于标识异常标签的字段。

      • 1表示对应的数据点是异常数据。

      • 0表示对应的数据点是正常数据。

    异常注入

    • 查询语句

      * | select (__time__ - __time__%60) as time, entity, count(*) as metric from log group by time, entity limit 1000000
    • 实体:enetity

    • 特征:metric

    • 异常率:0.001

    参数

    说明

    时间

    源数据中用于标识时间列的字段。

    粒度

    数据的观测间隔。单位为秒。取值范围为5~3600,建议观测间隔不小于60。

    实体

    源数据中用于标识具体实体的字段。智能巡检作业围绕实体标识,聚合出时间序列。

    特征

    源数据中用于标识具体特征数据的字段。

    异常注入

    配置是否保存注入异常后的数据。

    异常率

    配置注入的异常数据占时序数据的比例。例如,配置为0.001,那么注入异常后,时序数据中0.1%的数据是异常数据。

    异常类型

    配置在特征序列中注入哪些类型的异常。

算法配置

  1. 算法配置区域进行算法选择。目前支持监督异常检测算法

  2. 调度配置区域,完成如下配置。

    参数

    说明

    起始时间

    设置模型训练任务处理的时间序列的开始时间。

    结束时间

    设置模型训练任务处理的时间序列的结束时间。

    模型结束学习时间

    设置用于训练模型的时间序列的结束时间。大于起始时间且小于结束时间。起始时间模型结束学习时间之间的时序数据用于模型训练,模型结束时间结束时间之间的时序数据用于模型验证。

管理智能巡检作业

image

  1. 查看作业:创建模型训练作业后,您可以在作业列表中,单击目标作业标识,查看训练作业详情。

    1. 实体信息列表单击实体ID。

    2. 在右侧面板创建预测任务。

      参数

      说明

      任务名

      设置预测任务,即实时检测任务的名称。

      实体ID

      选择检测哪些实体ID序列。

      特征的异常关注类型

      设置着重关注特征序列的哪些异常。

      起始时间

      设置模型要处理的时间序列的开始时间。任务将从该时间点开始读取时序数据,并进行检测。

      数据延时时长

      设置待检测的时序数据写入到日志服务的最大延迟。任务在读取时序数据时会等待数据延时时长中配置的时间长度,确保时序数据已经写入到日志服务中,以便可以读到完整的时序数据。

      是否发送告警

      设置检测到的异常是否需要发送告警。

      告警策略

      告警策略用于合并、静默和抑制已产生的告警。

      • 选择极简模式普通模式时,您无需配置告警策略。日志服务默认使用SLS内置动态告警策略(sls.builtin.dynamic)进行告警管理。

      • 选择高级模式时,您可以选择内置的或自定义的告警策略进行告警管理。如何创建告警策略,请参见创建告警策略

      行动策略

      行动策略用于控制告警通知渠道和频率等。

      • 当告警策略选择为极简模式时,您只需配置行动组即可。您配置行动组后,日志服务自动为您创建一个名为规则名称-行动策略的行动策略。由该告警监控规则触发的所有告警都通过该行动策略发送通知。如何配置,请参见通知渠道说明

      • 告警策略选择为普通模式高级模式时,您可以选择内置的或自定义的行动策略进行告警通知。如何创建行动策略,请参见创建行动策略。其中,您选择告警策略选择为高级模式时,还可以开启或关闭自定义行动策略。更多信息,请参见动态行动策略机制

  2. 编辑作业。

  3. 删除作业。

    重要

    智能巡检作业被删除后,不可恢复,请您谨慎操作。

后续步骤

告警与打标反馈