日志模板发现与匹配算法-日志服务-阿里云

日志服务异常智能分析应用提供文本分析功能，用于对日志中的文本日志进行智能化、自动化的分析，提供全局的统计分析结果。文本分析功能通过日志模板发现和日志模板匹配两个子任务，实现对于日志数据的监控和统计。您可以根据待分析的日志数据的特点，选择不同的任务和算法。

文本分析算法概述

在日志模板发现阶段，您可以使用日志聚类算法或者模板发现算法离线构建日志模板库。在日志模板匹配阶段，您可以使用相似度聚类算法、哈希聚类算法或者相似度匹配算法在线监控日志数据。

文本分析中的算法采用LogParser和异常检测技术，提供日志分析报表帮助您了解日志的全局信息和可能存在的异常情况，包括：

通过日志报表快速定位可能出现异常的日志类别（例如新出现的日志类别，异常分数Top5的日志类别等），缩小人工排查的日志范围。
通过定时查看日志报表了解日志全局信息的变化，辅助探查系统的稳定性。

日志模板发现

日志聚类算法适用于日志量大、日志格式较为整齐的场景，模板发现算法适用于日志量适中，日志格式较为复杂的场景。

日志聚类算法

日志聚类算法基于日志聚类功能，日志聚类功能对日志数据进行粗粒度聚类，日志聚类算法在粗粒度聚类的结果上进行精度更高的二次聚类。开启日志聚类、查看聚类结果等操作步骤，请参见日志聚类。

模板发现算法

模板发现算法使用词频分析算法将拥有相似高频词的日志归为同一类别，且高频词构成对应日志类别的日志模板。算法的更多信息，请参见 Efficient and Robust Syslog Parsing for Network Devices in Datacenter Networks。

日志模板匹配

相似度聚类算法和哈希聚类算法适用于日志量大、日志格式整齐的场景，相似度匹配算法适用于日志量大的场景。

相似度聚类算法

日志相似度聚类算法使用基于文本相似度（例如编辑距离，Jaccard相似度，Cosine相似度等）的LogParser对文本日志进行解析，根据日志的文本内容与结构对日志进行聚类，将相似的日志归为一种类别。日志相似度聚类算法以日志类别为单位，分析各个日志类别中的日志在连续时间窗口中的变化情况，检测可能存在的异常。算法的更多信息，请参见Drain: An Online Log Parsing Approach with Fixed Depth Tree。

哈希聚类算法

哈希聚类算法基于日志聚类功能，日志聚类功能对日志数据进行在线聚类，哈希聚类算法在日志聚类结果的基础上进行二次聚类，同时持续分析、监控日志数据。哈希聚类算法不依赖外部日志模板库。

相似度匹配算法

相似度匹配算法使用外部日志模板库（可以使用日志模板发现任务构建初始的日志模板库），对日志数据进行匹配分析。统计日志模板库中每一个日志模板的出现次数变化情况，并及时发现新增的日志模板。相似度匹配算法使用向量匹配、哈希匹配等方式加速日志模板匹配。