本文档介绍如何对存储在日志服务(Log Service)中的数据进行统计和设置报警规则。

前提条件

  • 请确保您已购买日志监控数据处理量。更多信息,请参见按量付费包年包月
  • 请确保您已将本地日志收集到日志服务中。更多信息,请参见日志服务

背景信息

业务日志的监控和报警原理如下图所示。业务日志的统计监控与报警原理

操作步骤

  1. (可选)授权云监控访问日志服务的权限。
    当您首次使用日志监控功能时,需要授权云监控访问日志服务的权限。
    1. 登录云监控控制台
    2. 在左侧导航栏,单击日志监控
    3. 日志监控页面,单击这里链接。
    4. 云资源访问授权页面,单击同意授权
  2. 新建日志监控。
    1. 日志监控页面,单击右上角的新建日志监控
    2. 新建日志监控页面,设置日志监控相关参数。
      1. 选择应用分组名称。
      2. 选择关联资源。

        选择您需要进行监控统计的日志服务资源。

      3. (可选)预览数据。

        如果您选择的日志服务中已写入数据,可以在分析日志的预览框中查看到原始的日志数据。

        预览数据功能需要您开启日志服务的索引功能。单击开启日志索引链接,根据页面提示开启索引功能。

      4. 设置分析日志。
        分析日志相关参数的设置方法,如下表所示。
        参数 描述
        监控项名称 定义一个监控指标的名称。支持大小写字母、数字、下划线(_)。
        单位 监控项的单位。可以根据数据含义选择一个单位,会显示在监控图表的Y轴上。
        计算周期 监控项的计算周期。单位:分钟。取值:1、2、3、4、5、10、15、20、30、60。
        统计方法 在计算周期内根据选定的统计方法对日志数据进行聚合处理。如果字段值是数值型,可以使用所有统计方法,否则只能使用计数countps两种聚合算法。取值:
        • 计数:计算统计周期内指定字段数值的个数。
        • 求和:计算1分钟内指定字段数值之和。
        • 最大值:计算统计周期内指定字段数值的最大值。
        • 最小值:计算统计周期内指定字段数值的最小值。
        • 平均值:计算统计周期内指定字段数值的平均值。
        • countps:计算统计周期内指定字段求count后的每秒平均值。
        • sumps:计算统计周期内指定字段求sum后的每秒平均值。
        • distinct:去重后计算统计周期内指定字段出现的次数。
        • P75:计算1分钟内指定字段第75的数据,例如:监控项RT的统计结果为P75,计算周期为30ms,表示75%的RT请求小于30ms。
          说明 以P75为例,介绍该算法的含义。
        • 分布:计算一个周期内指定范围的日志条数,例如:统计1分钟内HTTP请求为5XX的状态码个数,则定义为(499,599]。统计方式为左开右闭。
        扩展字段 为统计方法中的结果提供四则运算功能,例如:在统计方法中配置了HTTP状态码请求总数TotalNumber和HTTP状态码大于499的请求数5XXNumber,则可以通过扩展字段计算出服务端的错误率:5XXNumber/TotalNumber*100。
        日志筛选 对日志数据进行过滤,相当于SQL中的where条件,例如:level=Error

        选择过滤的日志字段名不能包含中文。

        Group-by 对数据进行空间维度聚合,相当于SQL中的Group By。

        根据指定的维度,对监控数据进行分组。如果Group By不选择任何维度,则根据聚合方法对全部监控数据进行聚合。

        Select SQL 将统计方法转化成SQL语句,方便您理解数据的处理方式。
        分析日志区域,单击预览,预览1分钟的聚合日志(只计算最近100条日志数据),如下图所示。预览
    3. 单击确认
  3. 查看日志监控数据。
    创建日志监控后,等待3~5分钟。在日志监控页面,单击目标监控项对应操作列的监控图表,查看监控项的监控图表。监控图标
  4. 为监控项设置报警规则。
    1. 日志监控页面,单击目标监控项对应操作列的报警规则
    2. 报警规则页签,单击右上角的新建报警规则
    3. 创建报警规则页面,设置报警规则相关参数。
    4. 单击确定
    当监控项达到报警条件时,您会收到报警通知。