本文档介绍如何对存储在日志服务(Log Service)中的数据进行统计和设置报警规则。

前提条件

  • 请确保您已购买日志监控数据处理量。更多信息,请参见计费标准套餐
  • 请确保您已将本地日志收集到日志服务中。更多信息,请参见日志服务

背景信息

业务日志的监控和报警原理如下图所示。业务日志的统计监控与报警原理

操作步骤

  1. (可选)授权云监控访问日志服务的权限。
    当您首次使用日志监控功能时,需要授权云监控访问日志服务的权限。
    1. 登录云监控控制台
    2. 在左侧导航栏,单击日志监控
    3. 云监控服务关联角色对话框,单击确定
  2. 新建日志监控。
    1. 日志监控页面,单击左上角的新建日志监控
    2. 关联资源页面,选择关联资源,单击下一步
    3. 监控项定义页面,设置分析日志,单击下一步
      分析日志相关参数的设置方法,如下表所示。
      参数 描述
      监控项 监控指标的名称。
      单位 监控项的单位。
      计算周期 监控项的计算周期。单位:分钟。取值:1、2、3、4、5、10、15、20、30、60。
      统计方法 在计算周期内根据选定的统计方法对日志数据进行聚合处理。如果字段值是数值型,可以使用所有统计方法,否则只能使用计数countps两种聚合算法。取值:
      • 计数:计算统计周期内指定字段数值的个数。
      • 求和:计算1分钟内指定字段数值之和。
      • 最大值:计算统计周期内指定字段数值的最大值。
      • 最小值:计算统计周期内指定字段数值的最小值。
      • 平均值:计算统计周期内指定字段数值的平均值。
      • countps:计算统计周期内指定字段求count后的每秒平均值。
      • sumps:计算统计周期内指定字段求sum后的每秒平均值。
      • distinct:去重后计算统计周期内指定字段出现的次数。
      扩展字段 为统计方法中的结果提供四则运算功能,例如:在统计方法中配置了HTTP状态码请求总数TotalNumber和HTTP状态码大于499的请求数5xxNumber,则可以通过扩展字段计算出服务端的错误率:5xxNumber/TotalNumber*100。
      日志筛选 对日志数据进行过滤,相当于SQL中的where条件,例如:Key为level,Value中需要监控的关键字为ERROR,该参数设置为level=Error

      选择过滤的日志字段名不能包含中文。

      Group-by 对数据进行空间维度聚合,相当于SQL中的Group By。

      根据指定的维度,对监控数据进行分组。如果Group By不选择任何维度,则根据聚合方法对全部监控数据进行聚合。

      关于Group By,请参见Group By子句

      Select SQL 将统计方法转化成SQL语句,方便您理解数据的处理方式。
      应用分组 应用分组的名称。将该监控项添加到指定应用分组中。
      监控项定义页面,单击预览,预览1分钟的聚合日志(只计算最近100条日志数据),如下图所示。预览
    4. 报警设置页面,设置报警规则相关参数,单击下一步
    5. 创建结果页面,单击关闭
  3. 查看日志监控数据。
    创建日志监控后,等待3~5分钟。在日志监控页面,单击目标监控项对应操作列的监控图表图标,查看监控项的监控图表。监控图标
  4. 查看监控项的报警通知。
    当监控项达到报警条件时,您会收到报警通知。