文档

通过消费组读取文本日志进行模板发现

更新时间:

日志模板发现用于对日志数据进行离线、智能的分析,提取和管理日志中的常见模板,帮助您快速了解日志数据。本文介绍通过消费组拉取文本日志进行文本发现的操作步骤。

前提条件

创建日志模板发现作业

  1. 登录日志服务控制台

  2. 进入创建作业页面。

    1. 日志应用区域的智能运维页签中,单击智能异常分析

    2. 在实例列表中,单击目标实例。

    3. 在左侧导航栏中,选择分析任务 > 文本分析 > 日志模板发现

    4. 在页面右上角的日志模板发现任务区域,单击立即创建

  3. 创建模板发现作业配置向导页面的基本信息区域:

    1. 配置任务名Project日志库类型源日志库等信息。任务结果全部写入当前Project下名称为internal-ml-log的Logstore中。

    2. 创建AliyunLogETLRole角色,日志服务会扮演该角色获取数据。单击下一步

  4. 创建模板发现作业配置向导页面的算法配置区域,配置不同算法。

    日志聚类算法

    参数

    说明

    模板数量

    滑动滑块,控制生成的日志模板数量。不能精确控制日志模板的数量,只能调整大致范围。

    查询语句

    调用日志聚类的日志过滤条件,对满足过滤条件的日志进行模板发现。

    模板发现算法

    参数

    说明

    日志实体字段

    根据日志实体字段的值对日志数据分组,每一个分组内的日志数据单独进行模板发现。最多选择或输入2个字段。

    日志等级字段

    用于识别日志风险等级或严重程度的字段,如infoerror 。如果日志等级字段解析异常或者日志等级字段为空,则日志等级为unknown

    日志文本字段

    选择待分析的日志字段,文本分析作业将拼接您所选择的字段的值,将其作为整体进行统计分析。如果下拉列表中不存在目标字段,您可手动输入。如果设置黑名单,算法会分析日志中所有字段除了设置的字段。如果设置白名单,算法会分析设置的字段。

    重要
    • 不需要创建索引。

    • 日志模板发现日志模板匹配针对文本内容进行分析,对应日志字段的值必须是text类型,否则将被自动转化成text类型。

    • 如果所有指定的字段的值都不存在,则不会对相应的日志进行统计分析。

    模板数量

    滑动滑块,控制生成的日志模板数量。不能精确控制日志模板的数量,只能调整大致范围。

    起始时间、结束时间

    需要分析的日志所在的时间范围。

    高级配置

    image.png

    参数

    说明

    最大模板数

    日志模板发现算法能发现的最大模板数量。

    最大实体数

    最多处理多少个日志实体(日志分组),如果日志中出现的实体数量超过最大实体数,则忽略新出现的日志实体。实体数量越多,模板发现算法的耗时越长。

    最大分词数

    限制每一条日志分词后最大的词数,忽略日志中超过最大分词数的部分。

    起始常量长度

    表示日志句首的若干个词一定是最终日志模板中的一部分。例如起始常量长度配置为2,那么算法认为每条日志中的前2个词一定是最终日志模板中的一部分。

    采样率

    通过采样率调整文本分析作业处理日志的比例,默认为1,即处理全部日志。如果采样率小于1,文本分析作业会随机选取对应比例的日志进行处理。

    该参数适用于海量日志场景,当日志量超过作业的处理能力时,您可以调小该参数。

    分隔符

    文本分析作业使用分隔符(包括此处配置的分隔符和空白字符)对日志进行分词。例如日志为11:22:33:44:55,分隔符为冒号(:),日志内容将被解析为11、22、33、44和55。

    数据过滤配置

    通过日志等级字段过滤日志。

    • 如果日志的风险等级与白名单中的日志等级相匹配,则文本分析作业将对其进行分析。

    • 如果日志的风险等级与黑名单中的日志等级相匹配,则文本分析作业不会对其进行分析。

    通识字段模板

    在文本分析作业对日志进行预处理时,日志相似聚类算法会使用模板表达式匹配日志中的文本内容并将其替换为模板名称,有助于提高分析的准确性。例如模板名称为IP,模板表达式((?<=[^A-Za-z0-9])|^)(\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3})((?=[^A-Za-z0-9])|$),表示符合该模板表达式的文本内容将被替换为IP

    模板表达式需满足Python正则表达式规则,最多可配置5个模板。

    输入待测试的文本内容后,单击测试,验证您所配置的字段模板是否符合预期。例如输入192.0.2.0,匹配结果为<:IP:>,表示字段模板的配置符合预期。

  5. 单击完成。在作业资源页签,查看已创建的日志模板发现作业。

  6. 可选:单击目标作业资源后操作image进行编辑或删除。

    重要

    日志模板发现作业被删除后,不可恢复,请您谨慎操作。

查看日志模板发现作业进度

  1. 登录日志服务控制台

  2. 查看作业详情页面。

    1. 日志应用区域的智能运维页签中,单击智能异常分析

    2. 在实例列表中,单击目标实例。

    3. 在左侧导航栏中,选择分析任务 > 文本分析 > 日志模板发现

    4. 作业资源页签,单击目标作业标识。查看作业的运行进度、发现的模板数量和运行过程中可能出现的异常。

      image

查看日志模板发现作业结果

  1. 登录日志服务控制台

  2. 查看资源详情页面。

    1. 日志应用区域的智能运维页签中,单击智能异常分析

    2. 在实例列表中,单击目标实例。

    3. 在左侧导航栏中,选择分析任务 > 文本分析 > 日志模板发现

    4. 模板资源页签,根据资源描述选择相应的模板资源,单击模板资源标识。

      image

    5. 模板资源页面,查看作业发现的日志模板,对日志模板进行创建、删除、修改和标注等操作。

      image