文档

智能异常分析概述

更新时间:

智能异常分析应用是一个可托管、高可用、可扩展的服务,主要提供智能巡检、文本分析和根因诊断三大能力。本文介绍智能异常分析应用的产品架构、功能优势、适用场景、核心名词、使用限制和费用说明等信息。

重要

目前仅限白名单用户使用根因诊断功能。如果您需要使用根因诊断功能,请提交工单申请。

产品试用

SLS Playground中的智能异常分析Demo,内置了实例、任务、演示数据、可视化图表等资源,提供了完整的演示环境,便于您快速了解及体验功能。

您可以单击智能异常分析,进行试用。

重要

SLS Playground中的数据为演示数据,请勿用于生产环境。

产品架构

智能异常分析应用围绕运维场景中的监控指标、程序日志、服务关系等核心要素展开,通过机器学习等手段产生异常事件,通过服务拓扑关联分析时序数据和事件,最终降低企业的运维复杂度,提高服务质量。产品架构图如下所示。

image

各功能组件说明如下:

  • 日志存储(Logstore):日志服务提供Logstore用于存储日志类型的数据,并在日志存储的基础上提供查询和分析(SQL92语法)功能。更多信息,请参见分析概述

  • 时序存储(Metricstore):日志服务提供Metricstore用于存储时序数据,并在时序数据存储的基础上提供分析(SQL92语法、PromQL语法)功能。更多信息,请参见时序数据查询和分析简介

  • 机器学习算法:通过对特定场景的深度整合,提供一系列针对时序数据和文本等相关的算法,生成异常数据。更多信息,请参见智能巡检算法说明文本分析算法说明

  • 告警(Alert Monitoring):支持对异常结果进行告警。更多信息,请参见什么是日志服务告警

功能优势

  • 支持海量实体指标的智能异常检测,您无需关注具体的告警规则,通过简单的设置即可巡检各种异常。

  • 智能化地分析和挖掘非结构化文本日志,自动发现异常模式。

  • 支持您对算法产生的结果进行标注,帮助您逐步实现更好的模型训练和学习。

  • 依托于日志服务的高可用性与数据可靠性,告警服务的可用性达到99.9%。

  • 智能异常分析应用跟告警服务深度整合,让您拥有更完整的体验。

使用场景

在如下场景中,推荐使用智能异常分析应用。

  • 观察对象多且每个观察对象的观测维度也多。

  • 观测对象没有明确的阈值规则,但需要关注指标的形态。

  • 需要对观测对象编写大量的业务规则。

  • 处理非结构化的日志数据时,需要对文本日志中的模式进行挖掘。

  • 在Trace场景中,有明确的服务拓扑。

  • 存在自定义的服务拓扑。

核心名词

基本概念

说明

时序序列

在时序巡检任务的配置过程中,需要给算法提供标准的时间序列,即为Unix时间戳形式、等间隔的序列指标。

实体

智能巡检任务中的观测对象。

例如对某台机器上的某个特定的服务进行异常检测,通常对这个实体的描述为"192.0.2.0": 机器IP地址,"80": 服务端口号,则您通过机器IP地址、服务端口号即可唯一确定一个实体。

黄金指标

可以较准确的描述服务质量或者观测实体稳定性的指标。例如:

  • 描述一个域名的请求质量,则对应的黄金指标为每分钟平均响应延时、每分钟的请求数、每分钟的失败请求数、每分钟写入流量的大小。

  • 描述一个机器的状态,则对应的黄金指标为每分钟用户态CPU的利用率、每分钟内核态CPU的利用率、每分钟系统驻留内存的大小、每分钟磁盘IO次数、每分钟系统的平均负载。

  • 描述一个OSS Bucket的状态,则对应的黄金指标为每分钟该Bucket写入的次数、每分钟该Bucket读取的次数、每分钟该Bucket的写入流量的大小。

异常类型

内置7种常见的异常类型,用于快速筛选所需的关注点。更多信息,请参见智能巡检异常类型文本分析异常类型

归一化方法

归一化是一种简化计算的方式,即将有量纲的表达式转化为无量纲的表达式,成为标量,用于提升异常检测的效果。

滤波方法

滤波是将信号中特定波段频率滤除的操作,是抑制和防止干扰的一项重要措施。通过滤波后的曲线会平滑一些,用于提升异常检测的效果。

标注

您可以对智能巡检结果进行打标反馈,智能异常分析应用会接收到对应的信息。

误报

在时序巡检场景中,模型会检测出对应的异常,并通过告警渠道通知给您。如果您认为该结果不符合预期,则打标反馈给智能巡检应用,智能巡检应用将接收到此信息并进行机器学习。

漏报

在时序巡检场景中,如果模型未检测出对应的异常,您可以通过相应的组件对任意数据点的打标信息进行上报。

模式提取

通过分析、抽取、归纳的方法提取文本对象中的模式,用来描述一类相似文本的方法。

聚类

将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象不同。

无监督

根据类别未知(未被标记)的训练样本解决模式识别中的各种问题。

有监督

有监督的学习是从标签化训练数据集中推断出函数或模型的机器学习任务。

日志常量

日志往往由程序中的logging语句或者print语句产生。例如connect mysql server, latency 212ms日志可能是通过日志输出语句logging.info("connect mysql server, latency %dms")产生。每次执行日志输出语句都包含的部分称为日志常量,例如connect mysql server, latency ms

日志变量

日志往往由程序中的logging语句或者print语句产生。例如connect mysql server, latency 212ms日志可能是通过日志输出语句logging.info("connect mysql server, latency %dms")产生。每次执行日志输出语句都变化的部分称为日志变量,例如示例中的数字212

日志模板

由日志中的常量部分和变量部分的通配符构成的文本被称为日志模板。

例如connect mysql server, latency 212ms日志对应的模板为connect mysql server, latency *ms,其中使用通配符星号(*)替换数字变量212

通配符可以根据变量类型的不同进行选择,例如可以使用NUM表示数字变量,则日志模板为connect mysql server, latency NUMms

日志类别

每个日志类别包含表示该类别的日志模板,如果日志内容与该日志模板匹配,那么就认为日志属于该日志类别。

使用限制

作业类型

限制项

说明

智能巡检

巡检实体规模

单个任务最多支持1万个巡检实体。

如果您需要巡检更大的实体规模,请提交工单进行申请。

巡检时序粒度

单个实体的曲线需要等间隔且连续,在SQL场景中最小支持分钟粒度。

如果您需要更细的巡检粒度,请提交工单进行申请。

异常结果通知

目前只有钉钉机器人通知渠道支持异常结果的打标反馈。

如果您需要其他通知渠道,请提交工单进行申请。

文本分析

文本字段规模

单任务最多可以配置5个文本字段。

通识字段模板规模

单任务最多可以配置6个通识模板。

费用说明

目前智能巡检应用处于公测阶段,不会产生费用。